پیش بینی قیمت سهام یک کار چالش برانگیز است ، که در آن اخیراً از روشهای یادگیری ماشین با موفقیت استفاده شده است. در این مقاله ، ما بیش از 270 ویژگی دست ساز (فاکتورها) با الهام از شاخص های فنی و تجزیه و تحلیل کمی را استخراج می کنیم و اعتبار آنها را در پیش بینی حرکت کوتاه مدت قیمت متوسط برای سهام Nordic TotalView-Chitch آزمایش می کنیم. لیست ویژگی های پیشنهادی یکی از گسترده ترین مطالعات در زمینه مهندسی ویژگی های مالی را نشان می دهد. ما روی یک روش انتخاب ویژگی بسته بندی با استفاده از آنتروپی ، مربع های حداقل متوسط و تجزیه و تحلیل تبعیض آمیز خطی تمرکز می کنیم. ما همچنین یک ویژگی کمی جدید را بر اساس رگرسیون لجستیک تطبیقی برای یادگیری آنلاین معرفی می کنیم. ویژگی پیشنهادی به طور مداوم به عنوان اولین ویژگی در بین تعداد زیادی از شاخص های مورد استفاده در این مطالعه انتخاب می شود. ما در ادامه بهترین ترکیبات ویژگی ها را با استفاده از یک پایگاه داده Nordic با سفارش محدود با فرکانس بالا بررسی می کنیم. نتایج ما نشان می دهد که می توان از روشهای مرتب سازی و طبقه بندی کننده ها به گونه ای استفاده کرد که با ترکیبی از تنها چند ویژگی پیشرفته دستی ، می توان به بهترین عملکرد طبقه بندی برسد.
استناد: Ntakaris A ، Kanniainen J ، Gabbouj M ، Iosifidis A (2020) پیش بینی قیمت متوسط بر اساس روش های یادگیری ماشین با شاخص های فنی و کمی. PLOS ONE 15 (6): E0234107. https://doi. org/10. 1371/journal. pone. 0234107
سردبیر: Alejandro Raul Hernandez Montoya ، Universidad Veracruzana ، مکزیک
دریافت: 31 آگوست 2019 ؛پذیرفته شده: 19 مه 2020 ؛منتشر شده: 12 ژوئن 2020
کپی رایت: © 2020 Ntakaris و همکاران. این یک مقاله دسترسی آزاد است که تحت شرایط مجوز انتساب Creative Commons توزیع شده است ، که امکان استفاده ، توزیع و تولید مثل بدون محدودیت در هر رسانه را فراهم می کند ، مشروط بر اینکه نویسنده و منبع اصلی اعتبار داشته باشند.
بودجه: AN ، JK ، MG ، AI MSCA-ITN-ETN 675044 تحقیقات منتهی به این نتایج از پروژه H2020 BigDatafinance MSCA-ITN-ETN 675044 (http://bigdatafinance. eu) دریافت کرده است ، آموزش داده های بزرگ درتحقیقات مالی و مدیریت ریسک. سرمایه گذاران هیچ نقشی در طراحی مطالعه ، جمع آوری داده ها و تجزیه و تحلیل ، تصمیم به انتشار یا تهیه نسخه خطی نداشتند.
منافع رقابتی: نویسندگان اعلام کرده اند که هیچ منافع رقابتی وجود ندارد.
معرفی
مشکل مورد نظر در این مقاله پیش بینی حرکت قیمت متوسط سهام (یعنی ، بالا ، پایین یا حالت ثابت) در معاملات با فرکانس بالا (HFT) است. در یک زمان معین ، قیمت متوسط سهام به عنوان میانگین بهترین قیمت های سؤال و پیشنهاد تعریف می شود. قیمت متوسط به عنوان اطلاعات حیاتی برای سازندگان بازار که به طور مداوم موجودی ها را متعادل می کنند و همچنین برای معامله گرانی که باید بتوانند به درستی پیش بینی جهت حرکات بازار را داشته باشند ، در نظر گرفته می شود. علاوه بر این ، قیمت متوسط روند نظارت بر ثبات بازارها (یعنی شناسایی جعل) را تسهیل می کند. مفهوم پیش بینی قیمت میانی را می توان به شرح زیر توصیف کرد: در یک زمان معین t ، وضعیت سهام در یک بازنمایی مبتنی بر بردار رمزگذاری می شود که با استفاده از اطلاعات سری زمانی چند بعدی از یک پنجره زمانی کوتاه مدت محاسبه می شودطول t. با توجه به این نمایندگی ، جهت قیمت میانی در افق Δ t پیش بینی می شود.
در طی چند سال گذشته ، چندین روش ، مانند مواردی که در [1-6] شرح داده شده است ، و [7] برای تجزیه و تحلیل داده های بازار سهام پیشنهاد شده است. همه این روشها از خط لوله طبقه بندی استاندارد تشکیل شده توسط دو مرحله پردازش پیروی می کنند. با توجه به یک نمونه زمانی در طی مراحل معاملاتی ، وضعیت بازار بر اساس یک پنجره زمانی (معمولاً کوتاه) که قبل از نمونه فعلی توصیف شده است ، توصیف می شود. مجموعه ای از ویژگی های دست ساز برای توصیف پویایی بازار انتخاب شده و منجر به نمایندگی وکتور می شود. بر اساس چنین نمایندگی ، یک طبقه بندی کننده برای پیش بینی وضعیت بازار در یک نمونه زمانی در یک افق پیش بینی ، همانطور که در شکل 1 نشان داده شده است ، استفاده می شود.
شکل 1. پیش بینی قیمت میانی بر اساس پنج کتاب سفارش محدود ، سطح قیمت را بپرسید که در آن T دوره استخراج ویژگی آموزش و Δ T افق پیش بینی شده است.
اکثر مطالعات ، همانطور که در بخش ادبیات مورد بحث قرار گرفته است ، از تعداد محدودی از ویژگی ها استفاده می کنند بدون اینکه انگیزه ای در مورد انتخاب آنها ارائه دهند. در این مقاله ، ما تعداد زیادی از شاخص های فنی ، ویژگی های پیشرفته کتاب سفارش (LOB) و شاخص های کمی را به کار می بریم [8]. ما بیشتر یک ویژگی کمی جدید را پیشنهاد می کنیم که برای اولین بار در بین چندین ویژگی برای وظیفه پیش بینی حرکت قیمت متوسط انتخاب می شود. استفاده از ویژگی های مختلف دست ساز منجر به رمزگذاری خواص مختلف سری زمانی مالی می شود و حذف برخی از این ویژگی ها می تواند منجر به عدم بهره برداری از اطلاعات مربوطه شود. تعریف مجموعه خوبی از ویژگی ها به طور مستقیم به عملکرد تجزیه و تحلیل بعدی متصل است زیرا هرگونه اطلاعات دور ریخته شده در این مرحله نمی تواند بعداً توسط طبقه بندی کننده بازیابی شود.
یک رویکرد متداول برای رفع این مشکل استفاده از روش های انتخاب ویژگی (به عنوان مثال ، [9 ، 10]) است که می توان با استفاده از انواع مختلف معیارها برای رتبه بندی ویژگی به صورت بسته بندی انجام داد. در حالی که استفاده از تکنیک های کاهش ابعادی مبتنی بر تحول مانند تجزیه و تحلیل مؤلفه اصلی (PCA) یا تجزیه و تحلیل تبعیض آمیز خطی می تواند به یک خط لوله پردازش مشابه منجر شود ، در این مقاله ، ما علاقه مند به تعریف مجموعه ای از ویژگی هایی هستیم که بیشتر اطلاعات را در آن منتقل می کندداده. PCA در این مطالعه در نظر گرفته نمی شود زیرا ویژگی های موجود را به موارد جدید تبدیل می کند که قابل تفسیر نیستند. این بدان معناست که ما قادر به ارائه بینشی نخواهیم بود که ویژگی های خاص برای وظیفه پیش بینی حرکت قیمت متوسط مناسب است. استفاده از انتخاب ویژگی با استفاده از معیارهای بدون نظارت و به ویژه معیار حداکثر آنتروپی در [11] و [12] استفاده شده است. انگیزه این رویکرد این واقعیت است که با افزایش آنتروپی یک ویژگی (هنگامی که در مجموعه ای از داده ها محاسبه می شود) ، واریانس داده ها و بنابراین ، اطلاعاتی که رمزگذاری می کند نیز افزایش می یابد. با این حال ، ترکیبی از بسیاری از ویژگی های آنتروپی بالا در یک بازنمایی مبتنی بر وکتور لزوماً منجر به عملکرد طبقه بندی خوب نمی شود. این امر به این دلیل است که ابعاد مختلف بازنمایی داده های تصویب شده نیاز به رمزگذاری اطلاعات مختلف دارد.
سهم اصلی کار ما سه برابر است. اولین سهم استفاده از لیست گسترده ای از شاخص های فنی برای تجارت با فرکانس بالا است. سهم دوم یک ویژگی کمی جدید است ، به نام ویژگی رگرسیون لجستیک سازگار ، که برای اولین بار در بین چندین معیار انتخاب ویژگی انتخاب شد. سهم سوم ارزیابی گسترده ای از سه مجموعه ویژگی (به عنوان مثال ، شاخص های فنی ، کمی و LOB) از طریق تبدیل (I) آنتروپی ، (ب) تجزیه و تحلیل تبعیض آمیز خطی (LDA) و (III) میانگین مربعات خطی (میانگین) است. LMS) به عنوان معیارهای انتخاب ویژگی. شبکه عملکرد LMS ، LDA و شعاعی (RBFN) به عنوان طبقه بندی کننده برای کار پیش بینی حرکت قیمت متوسط استفاده می شود. یافته های ما نشان می دهد که بهترین عملکرد با استفاده از تنها چند ویژگی (پیشرفته) حاصل از مجموعه های ویژگی های دست ساز کمی و فنی حاصل می شود.
این تحقق های مختلف (به عنوان مثال ، آنتروپی ، LMS و LDA) از روش انتخاب ویژگی در استخر گسترده ای از ویژگی های دست ساز استفاده می شود ، که برای پوشش هر دو ویژگی اساسی و پیشرفته از دو رویکرد مختلف معاملاتی انتخاب شده اند (یعنی آنهایی که تمرکز دارنددر تجزیه و تحلیل فنی و کمی). تجزیه و تحلیل فنی مبتنی بر این واقعیت است که با نظارت بر نمودارهای قیمت و حجم می توان پیش بینی قیمت را بدست آورد ، در حالی که تجزیه و تحلیل کمی بر مدل های آماری و برآورد پارامتر متمرکز است. برای شاخص های فنی ، ما ویژگی های اساسی و پیشرفته همراه با فیلترهای دیجیتال را محاسبه می کنیم ، در حالی که برای شاخص های کمی ، ما در درجه اول روی تجزیه و تحلیل سری زمانی تمرکز می کنیم. ویژگی ها و توضیحات مربوطه آنها به عنوان ورودی در دوازده مدل انتخاب ویژگی (هر یک از آنها مربوط به یک معیار و طبقه بندی کننده متفاوت) برای کار طبقه بندی ارائه شده است. ما بهترین ترکیب این دو نوع ویژگی را ارائه می دهیم و مقایسه ای از دو سبک معاملاتی از مجموعه ویژگی ها را از نظر عملکرد F1 ارائه می دهیم. نمره F1 یک آزمایش رایج است که برای اندازه گیری عملکرد استفاده می شود و به عنوان میانگین هارمونیک دقت و فراخوان محاسبه می شود. به بهترین دانش ما ، این اولین مطالعه ای است که تعریف می کند از کدام نوع اطلاعات برای توضیحات و طبقه بندی سری زمانی با فرکانس بالا استفاده می شود.
ادامه مقاله به شرح زیر تدوین شده است. ما ابتدا یک بررسی جامع ادبیات از ویژگی های فنی و کمی و به دنبال آن بیانیه مشکل و توضیحات داده ها ارائه می دهیم. سپس ما تحقق های مختلفی از روش بسته بندی شده اتخاذ شده در تحلیل خود ، همراه با نتایج تجربی ارائه می دهیم. شرح مفصلی از کلیه ویژگی های مورد استفاده در آزمایشات ما و همچنین تمام لیست های رتبه بندی برای هر روش را می توان در بخش پیوست یافت.
کار مرتبط
تجارت الگوریتمی از رایانه ها ، طبق قوانین خاص ، برای انجام سریع محاسبات دقیق بر اساس تجزیه و تحلیل آماری استفاده می کند. یک معامله گر با استفاده از تکنیک های Learning Machine (ML) می تواند از ابزارهای مختلفی بر اساس این تجزیه و تحلیل استفاده کند تا بهترین استراتژی تجارت را انتخاب کند. با این حال ، تعدادی از چالش ها برای حل باقی مانده است. اول ، چگونه می توان تعیین کرد که کدام شاخص ها (یعنی ویژگی ها) قادر به ایجاد یک حرکت سودآور هستند؟دوم ، آیا قیمت های گذشته و حال شامل تمام اطلاعات مربوطه است؟چندین نویسنده از شاخص های فنی و تجزیه و تحلیل کمی برای چندین کار با استفاده از مجموعه محدود از این ویژگی ها استفاده کردند. الگوهای پنهان استخراج شده از داده های گذشته و همچنین مدل های آماری می توانند اطلاعات مربوطه را به معامله گر ML ارائه دهند.
تجزیه و تحلیل فنی (به عنوان مثال ، [13]) به طور سنتی نسبت به تجزیه و تحلیل کمی ، نظارت کمتری را دریافت کرده است. با این وجود ، چندین مطالعه از شاخص های فنی به عنوان مکانیسم اصلی تجزیه و تحلیل سیگنال و پیش بینی قیمت استفاده می کنند. در حوزه HFT ، نویسندگان [14] از هفت خانواده قانون تجارت به عنوان معیار تأثیر سرعت تجارت استفاده می کنند ، در حالی که در [15] نویسندگان فقط چند شاخص فنی را برای معاملات پر سرعت ارائه می دهند. در دوره ML فعلی ، نویسندگان در [1] از شش شاخص فنی اساسی به عنوان بازنمایی ویژگی برای یک سیستم پشتیبانی تصمیم گیری بر اساس شبکه های عصبی مصنوعی (ANN) استفاده کردند. فقط ده شاخص فنی در [16] به عنوان ویژگی های ورودی برای چندین الگوریتم میلی لیتر (یعنی ANN ، ماشین های بردار پشتیبانی ، جنگل تصادفی و خلیج های ساده لوح) برای پیش بینی روند سهام استفاده می شود. با این حال ، همچنین می توان به تجزیه و تحلیل کمی متوسل شد ، که شامل معامله گران ML است که هنگام تصمیم گیری در مورد تجارت ، از شاخص های پیچیده ریاضی و آماری استفاده می کنند. امور مالی کمی یک زمینه گسترده است ، از جمله بهینه سازی نمونه کارها (به عنوان مثال ، [17 ، 18]) ، قیمت گذاری دارایی (به عنوان مثال ، [19 ، 20]) ، مدیریت ریسک (به عنوان مثال ، [21 ، 22]) و تجزیه و تحلیل سری زمانی (به عنوان مثال.، [23 ، 24]). در این کار ، ما روی تجزیه و تحلیل سری زمانی تمرکز می کنیم و از ایده های تحلیل سری زمانی کمی مالی که برای یادگیری ماشین اتخاذ شده است استفاده می کنیم. به عنوان مثال ، نویسندگان در [25] از دستگاه های بردار پشتیبانی و درختان تصمیم گیری از طریق تجزیه و تحلیل همبستگی برای پیش بینی بازار سهام استفاده می کنند. یکی دیگر از جنبه های تجزیه و تحلیل کمی ، ساخت استراتژی های معاملاتی مانند بازده میانگین است که در [26] آزمایش شده است). جنبه دیگری از تجزیه و تحلیل کمی محاسبه عدم تعادل کتاب سفارش برای استراتژی های عدم تعادل سفارش است. این ایده به عنوان یکی از ویژگی های یک شبکه عصبی عمیق در [4] استفاده می شود.
در کار حاضر ، ما بر روی ویژگی های دست ساز استخراج شده بر اساس تجزیه و تحلیل فنی و کمی تمرکز می کنیم. ما نشان می دهیم که ترکیبی از ویژگی های به دست آمده از این گروه ها می تواند توانایی پیش بینی الگوریتم ها را بهبود بخشد. یک روش ترکیبی توسط [27] برای پیش بینی بازده دارایی بر اساس شاخص های فنی و مدل های سری زمانی استفاده می شود. به بهترین دانش ما این اولین تلاش برای مقایسه این مدارس تجاری با استفاده از چندین روش انتخاب ویژگی در یک روش بسته بندی در HFT است.
فرمول مسأله
HFT نیاز به تجزیه و تحلیل مداوم پویایی بازار دارد. یکی از راه های تدوین این پویایی ها ، ساخت یک کتاب سفارش محدود (LOB) است ، همانطور که در جدول 1 نشان داده شده است. LOB جریان سفارش تجمعی است که سفارشات حد مجاز را نشان می دهد ، که اجرا نمی شوند و لغو نمی شوند ، که در پیام به اصطلاح ذکر شده استلیست ، همانطور که در جدول 2 نشان داده شده است. لوب ها سیگنال های چند بعدی هستند که توسط فرآیندهای تصادفی شرح داده شده اند ، و پویایی آنها به عنوان توابع càdlàg توصیف می شود (یعنی ، [2]). توابع برای یک سفارش محدود خاص (یعنی سفارش با ویژگی های خاص از نظر قیمت و حجم در یک زمان خاص t) ، به عنوان t) ، به عنوان: سفارش = (t ، قیمتحرف، جلدحرف) که در زمان T فعال می شود :. بسته به نحوه ساخت LOB ، ما با اطلاعات جدید با توجه به ورود رویداد ، با اطلاعات جدید رفتار می کنیم. هدف کار ما پیش بینی جهت (یعنی بالا ، پایین یا ثابت) قیمت متوسط است (یعنی (پ.آ+ pشرح)/2 ، جایی که pآقیمت سؤال و P استشرحقیمت پیشنهاد در سطح اول LOB است). هدف استفاده از ویژگی های آموزنده بر اساس جریان سفارش (یعنی لیست پیام یا کتاب پیام [MB]) و LOB است که به معامله گر ML کمک می کند تا صحت پیش بینی حرکت قیمت متوسط را بهبود بخشد.