Тази статия ще служи като кратко въведение в статистическото обучение за алгоритмична търговия. Ще започне с обяснение какво представлява статистическото обучение, неговата цел и някои техники за това как да го извършите. Това резюме се основава на главата „статистическо обучение“ от книгата „Успешна алгоритмична търговия“ от Майкъл Л. Холс-Мур.

Снимка от Lum3n: https://www.pexels.com/photo/black-click-pen-on-white-paper-167682/

Какво е статистическо обучение?

Статистическото обучение е принципът на използване на данни за правене на прогнози. В случай на алгоритмична търговия, целта е да се предвиди стойността на финансов актив. Например, за прогнозиране на цената на FTSE 100. Прогнозите се правят чрез анализиране на данни около цената на този финансов актив. Тези данни могат да се състоят от цена, волатилност и фундаментални данни като съотношения цена-печалба на компании, включени в FTSE 100.

Принципът на статистическото обучение се представя лесно с помощта на символи:

Y = f(X) + e

Y= отговорът

X = (x1, x2, …, xp)

X е вектор от p различни характеристики (данни като съотношение цена-печалба)

e= термин за грешка или шум

Този термин за грешка представлява информация, която не е включена в нашия модел. Например съотношението цена-печалба за една компания може да бъде отлично, но внезапна промяна в ръководството може да доведе до по-ниска цена. Това е нещо, което моделът не можеше да предвиди.

f е неизвестна функция на предикторите.

И така, това означава: Отговорът (Y) е равен на функцията на X, където X е вектор от p различни характеристики, плюс член на грешката.

Целта на статистическото обучение е да се приближи формата на f, установена от изследваните данни, и да се изчисли точността на оценките. С други думи, ние търсим формула, която да се доближава възможно най-близо до стойността на Y.

Кои са двете основни задачи в статистическото обучение?

Двете основни задачи в статистическото обучение са прогнозиране и умозаключение. Прогноза означава прогнозиране на реакцията Y с помощта на „новонаблюдавани“ данни, например анализиране на днешните данни за цената на FTSE 100, за прогнозиране на утрешната стойност.

Различните оценки на f (различни подходи за изчисляване на прогнозна цена) могат да доведат до различни точности. Грешката, която измерва точността на статистическия модел, се нарича редуцируема грешка (редуцируема, защото може да бъде намалена чрез фина настройка на модела или избор на друг). Както бе споменато по-горе, винаги ще има нередуцируема грешка, част, която не може да бъде променена. Следователно, целта на прогнозата е да се минимизира редуцируемата грешка, доколкото е възможно, за да се създадат възможно най-близките оценки на цената на финансовия актив.

Втората основна задача на статистическото обучение е извод. Дефиницията на „извод“ е следната: „заключение, постигнато въз основа на доказателства и разсъждения“. Това означава, че връзката между X (предсказателите) и Y (отговорът) е от значение. Когато се занимаваме с прогнозиране, връзката между X и Y не е много важна. Важното е колко точни са прогнозите. При умозаключение е важно как е направено определено заключение. Изводът не е голяма част от алгоритмичната търговия, но доказва своята полезност в много случаи.

Как да съставя формула, за да правя прогнози?

Първо ще бъдат описани различни видове модели. Сравняват се параметрични и непараметрични модели и се обяснява разликата между контролирано и неконтролирано обучение.

Параметричните модели се използват, когато има предположение за формата на f. Първото решение би било да изберете линеен или нелинеен модел. Ако се анализира графика и може да се направи наблюдение, че данните са линейни, решението би било да се използва линеен модел, за да се поберат данните. Непараметричните модели могат да се поберат в по-голям диапазон от форми за f, но се нуждаят от повече данни от наблюдения. Тези модели дават по-голяма гъвкавост при оценяване на стойностите за Y, но тази гъвкавост не идва без опасност. Допълнителната гъвкавост го прави по-вероятно да свърши данните.

За повече информация относно свръхоборудването: https://algotrading101.com/learn/what-is-overfitting-in-trading/#:~:text=Прекомерното оборудване%20in%20trading%20is%20вашата%20стратегия%20ще%20да бъде %20печеливш.

Трудността на данните за фондовия пазар

Прост модел като линеен модел ще осигури ужасни прогнози, тъй като моделът не е достатъчно гъвкав, за да се побере около данните. По-усъвършенстваните и гъвкави модели ще преувеличат повечето пъти, тъй като са твърде гъвкави и следват шума, а не прогнозните стойности. Този шум присъства особено във финансовите времеви редове и следователно прогнозирането на финансови времеви редове може да бъде много по-сложно от прогнозирането на други времеви редове като прогноза за продажбите. Някои интересни въпроси за размисъл са: „кои пазарни данни имат най-много или най-малко шум?“ „Има ли разлика между данните от фондовия пазар и данните от криптовалута?“ „Има ли разлика във времевите рамки? 5-минутната графика има ли повече шум от дневната?“

Контролирано обучение е подход за статистическо машинно обучение, при който данни с „етикет“ се използват за обучение на модел. Този етикет съдържа верния отговор. В случай на алгоритъм за търговия етикетът ще бъде цената на актива. Неконтролирано обучение е мястото, където данните нямат правилен отговор. Това е по-предизвикателен подход, тъй като машината не може да знае кой е правилният отговор.

Какви са техниките, използвани в алгоритмичната търговия?

Този раздел ще представи три техники, които правят възможно прогнозирането на цената на финансов актив, за да се създаде печеливш алгоритъм за търговия. Първо се обсъжда регресия, последвана от класификация и модели на времеви редове.

Регресията е техника за контролирано машинно обучение, която може да се използва за прогнозиране и изводи. Регресията моделира връзката между зависима променлива (Y) и нейните независими променливи (X). Най-популярният регресионен модел е линейната регресия, праволинейна връзка между зависимата променлива и нейната независима променлива. Друга регресионна техника, наречена логистична регресия, се използва за прогнозиране на категорични отговори. В случай на алгоритмична търговия, логистичната регресия може да предвиди дали цената на даден финансов актив ще се повиши, понижи или ще остане непроменена.

Класификация е друга техника за контролирано машинно обучение, използвана за класифициране на наблюдение в категория. Тези категории могат да бъдат неподредени (цветове) или подредени (ниска, средна, висока). Както беше обсъдено в раздела за регресията, логистичната регресия е модел, използван за класификация. Други включват поддържащи векторни машини (SVM) и изкуствени невронни мрежи (ANN).

Моделите на времеви редове са модели, които анализират финансови времеви редове. Целта на тези модели е да се предвидят бъдещи стойности на времеви редове, като се разглеждат стойности на предишни времеви редове. Двете големи семейства модели на времеви редове са авторегресивна интегрирана подвижна средна (ARIMA), която моделира вариациите в абсолютната стойност на времеви редове, и авторегресивни модели на условна хетероскедастичност (ARCH), използвани за моделиране на дисперсията (променливостта) на времеви редове . Няколко модела, представляващи непрекъснати времеви редове, се използват за изследване на стойности на непрекъснати времеви редове, като геометрично брауново движение, модел на стохастична променливост на Хестън и модел на Орнщайн-Уленбек.