3 важни неща, за които да внимавате

Разпространението на машинното обучение е безпрецедентно. Съществуват много малко области, в които се изисква вземане на решения, базирани на данни, които не са намерили широко приложение. Сферата на инвестирането не е изключение. Човек просто трябва да потърси в Google съвместно „ML“ и „стоково прогнозиране, за да бъде представено множество прогнози за времеви редове и съдържание, свързано с повтарящи се невронни мрежи. Въпреки че данните за цените на акциите може да изглеждат перфектните кандидати за тези типове алгоритми, ние трябва да проявим благоразумие и да подходим предпазливо към тази задача (особено ако са включени вашите трудно спечелени пари).

Тези, посветени в тайнствените изкуства на предсказване на машинното обучение, ще си спомнят един от първите си уроци по темата, който е повторение на диаграмата на Вен по-долу:

Въпросът тук е ясен. Машинното обучение (или науката за данни) обхваща сливането на технически умения (като програмиране и математика) със знания по предмета под формата на опит в областта. Без да присъстват и трите форми, ние просто регресираме обратно към една от по-чистите форми на съответното поле.

Това изображение е особено вярно за финансовото машинно обучение. Финансовите данни от времеви редове са невероятно нюансирани, прилагането на готов алгоритъм към необработени данни за цените е перфектната рецепта за фалшиво откриване или по-лошо, загуба на капитал. Следователно използването на тези данни изисква някои специални съображения и най-важното, прилагане на знания за домейна. Като такава, тази статия има за цел да предаде известна интуиция, която често се пренебрегва от тези, които са нови в областта. Ще се съсредоточим основно върху дискусионните аспекти на проблема, тъй като ресурсите за свързаните математика и кодиране вече са налични в изобилие.

Бележка от редакторите на Towards Data Science: Въпреки че позволяваме на независими автори да публикуват статии в съответствие с нашите правила и насоки, ние не одобряваме приноса на всеки автор. Не бива да разчитате на творби на автор, без да потърсите професионален съвет. Вижте нашите Условия за четене за подробности.

1. Данни, данни, данни

Това може да не е изненадващо, тъй като данните са ключовата съставка за всеки ML модел, като прогнозирането на акциите не е изключение. За да разберем на какво се дължи нашата предпазливост, първо трябва да разберем процеса на генериране на данни. Често анализирани набори от данни за домейн за прогнозиране на акции, като макроикономически, фундаментални и ценови данни, са примери за данни от времеви редове. Тази категория данни страда от явление, наречено „серийна корелация“. Просто казано, стойността на всяко наблюдение е закотвена към стойността, наблюдавана в предишния времеви интервал.

За да илюстрираме това на практика, нека вземем пример с цените. Ако наблюдаваме която и да е акция и проследим движенията на цената й на ежедневни интервали, виждаме, че цената на затваряне за всяка акция е тясно закотвена към цената на затваряне от предишния ден, с изключение на някои „незначителни“ отклонения, но защо? В най-простата си форма акцията е дял от собствеността в основната компания, чиято стойност се определя от вечното счетоводно уравнение, активи минус пасиви е равно на капитал. Капиталът е фундаменталната стойност на компанията, която съставлява по-голямата част от цената на акциите, като настроенията на инвеститорите, търговското поведение и шумът водят до ежедневните отклонения. Стойността на активите на компанията, а именно машини, земя, сгради и инвентар, не се променят съществено за една нощ, както и нейните пасиви (не винаги е вярно), така че освен в случай на голям счетоводен скандал, фундаменталната стойност на компанията трябва да бъде относително стабилна на ежедневна база.

Какво означава това за машинното обучение? това означава, че даден модел може да изглежда, че се представя сравнително добре, като „изиграе“ своята функция за загуба и избере цената от предишния ден като прогноза за цената за текущия ден. Това се наблюдава ясно, когато начертаният изход за прогнозиране на много „добре работещи модели за прогнозиране“ много прилича на закъсняла пълзяща средна на действителната цена на акциите. Всеки такъв модел постоянно ще гони реалната цена.

В подобен дух е въпросът за стационарността. Основата за много ML модели и техники за предварителна обработка правят предпоставката, че параметрите на разпределенията, от които се генерират данните, са постоянни. Като алтернатива това може да се тълкува като средната стойност и стандартното отклонение на характеристиките не се променят с времето и няма тенденция в данните. Един поглед към често използваните тримесечни данни за БВП на САЩ във времето бързо ще разсее тази представа. Очевидно има тенденция в тези данни и би трябвало да има, ако една икономика расте, бихте очаквали нейното производство (и цените на тези продукти) да растат с течение на времето.

Източник: BEA, номинален БВП на САЩ във времето

Средното и стандартното отклонение в тези данни са времеви варианти и причиняват някои неудобства при сляпо прилагане на алгоритми като регресия и общи техники за предварителна обработка като стандартизация и анализ на главните компоненти.

Една често използвана техника както в (инвестиционната) литература, така и в практиката за борба с тези аномалии в данните от времеви редове е да се вземе възвръщаемостта на цената за акциите (или скоростта на промяна за други данни) между два периода вместо абсолютната стойност. Интуицията зад това е подобна на тази за премахване на тренда или разлики в прогнозирането на времеви редове ARIMA, което има за цел да направи данните стационарни. Ако приложим това към нашите данни за БВП на САЩ, получаваме нещо, което започва да прилича на нормална iid променлива.

Този подход не е перфектен и въвежда различни други проблеми, но това е широко приетата методология.

Въпреки че има много други аспекти на финансовите данни, с които потребителите трябва да са запознати, за краткост ще ги обсъдя по-изчерпателно в бъдеща публикация.

2. Термин за произволна грешка - последици в реалния свят

Повечето контролирани методи за машинно обучение са монтирани чрез оценка или оптимизиране за набор от тегла, които минимизират някои обективни функции. При проблеми с регресия тази функция често е Средна квадратична грешка (RMSE) , а при класификация, Кръстосана ентропия. За много класически сравнителни набори от данни като този на ImageNet Large Scale Visual Recognition Challenge (ILSVRC) се превърна в „състезание до дъното“ с висококвалифицирани екипи, които последователно (и успешно) намаляват процент грешки в скокове и граници година след година. Въпреки че това може да е подходящо за целите на напредъка в научните изследвания, фокусът в ML върху премахването на произволен термин за грешка е насърчил абстрахирането на проблема от реалния свят.

В инвестициите намирането на модел, който класифицира кога да се купи или продаде акция с 95% степен на точност, може да изглежда като чудесен резултат, но често пъти този модел няма да имитира истинското поведение на портфейла и най-важното няма да вземе предвид цената на грешен. Пазарите са непостоянни, докато привидно благоприятната среда за инвестиране може да се запази в продължение на няколко години, корекцията или събитието „Черен лебед“ (както е измислено от Насим Талеб) , може да се разгърне в рамките на минути.

Ако един от случаите, които характеризират вашия процент грешки от 5%, се случи заедно с едно от тези редки, но катастрофални събития, е почти сигурно, че портфолиото ви ще пострада, вероятно до степента, в която натрупаните награди от това, че сте прави 95% от времето (приемайки, че няма грешка при обобщаване) е напълно изтрито. Този проблем е още по-сериозен за професионалните инвестиционни мениджъри, тъй като тегленето от 10% е достатъчно, за да предизвика масово напускане на инвеститори от техните фондове. Последствията, произтичащи от асиметрията на печалбата и болката, са добре вкоренени в психиката на опитните практикуващи. Ето защо индустрията е толкова фокусирана върху управлението на риска, колкото и върху генерирането на възвръщаемост.

Урокът тук за обучаващия се на машини/изследователя на данни е да разбере последиците от техния модел, да се отдалечи от това да бъде информиран единствено от функцията за процент на грешка и загуба, да извърши тестване напред като че ли държите вашите прогнозирани сделки във времето и въведете чувствителни към разходите мерки, които наказватмодела ви за грешен.

3. Побеждаване на пазара – по-трудно е, отколкото си мислите

Просто наличието на добър ML модел, който печели положителна възвръщаемост, не е достатъчно, за да разберем защо трябва да въведем концепцията за алтернативни разходи. Този ключов икономически принцип илюстрира цената на следващата пропусната най-добра възможност. Ако не инвестирахме парите си, използвайки предложен модел за машинно обучение, следващата най-добра възможност и тази, която би изисквала малко умения, е да купим пазара, вероятно чрез закупуване на ETF. Тези продукти ви дават възвръщаемост на индекс като S&P 500 на относително ниска цена. Така че трябва да се зададе въпросът, ако ефективността на вашия модел, коригирана за транзакционните разходи, не надвишава съществено, да речем, 18,74% от календарната година на S&P 500 до момента,наистина ли сте оползотворявате парите си добре? Професионалните инвестиционни мениджъри почти винаги са обвързани с някакъв бенчмарк, където уменията им се измерват чрез способността им да го надхвърлят, за разлика от обучаващия се на машини/изследователя на данни, където те често оценяват своите финансови прогнози изолирано.

Заключение

Въпреки че този списък не е нито пълен, нито изчерпателен, надявам се, че съм ви предал известна интуиция относно ключови неща, които трябва да имате предвид, когато изграждате своя ML модел за прогнозиране на акции. Както при всяка друга задача, свързана с данни, ML може да ви даде набор от инструменти, които да използвате, но намирането на решение все още изисква интимно разбиране на проблема.

Отказ от отговорност: тази публикация е чисто израз на лични възгледи и мнения. По никакъв начин не представлява съвет и не отразява възгледите на моя работодател.