3 важных вещи, которых нужно остерегаться

Распространение машинного обучения беспрецедентно. Существует очень мало областей, в которых требуется принятие решений на основе данных, не получивших широкого применения. Сфера инвестирования не исключение. Просто нужно совместно поискать в Google « ML и прогноз акций », чтобы получить множество прогнозов временных рядов и контента, связанного с рекуррентными нейронными сетями. Хотя данные о ценах на акции могут показаться идеальными кандидатами для этих типов алгоритмов, мы должны проявлять осмотрительность и осторожно подходить к этой задаче (особенно если речь идет о ваших кровно заработанных деньгах).

Те, кто знаком с искусством предсказания в машинном обучении, вспомнят один из своих первых уроков по этой теме, представлявший собой некоторую итерацию приведенной ниже диаграммы Венна:

Суть здесь ясна. Машинное обучение (или наука о данных) сочетает в себе технические навыки (например, программирование и математику) со знанием предметной области в форме экспертных знаний в предметной области. Без присутствия всех трех форм мы просто возвращаемся к одной из наиболее чистых форм соответствующего поля.

Это описание особенно актуально для финансового машинного обучения. Финансовые данные временных рядов невероятно разнообразны, применение готового алгоритма к необработанным ценовым данным - идеальный рецепт для ложного открытия или, что еще хуже, потери капитала. Поэтому использование этих данных требует некоторых особых соображений и, что наиболее важно, применения знаний предметной области. Таким образом, эта статья призвана дать некоторую интуицию, которую часто упускают из виду новички в этой области. Мы сосредоточимся в первую очередь на дискуссионных аспектах проблемы, поскольку ресурсы по математике и кодированию уже доступны в изобилии.

Примечание редакторам Data Science. Хотя мы разрешаем независимым авторам публиковать статьи в соответствии с нашими правилами и рекомендациями, мы не поддерживаем вклад каждого автора. Не следует полагаться на работы автора без консультации с профессионалами. См. Подробности в наших Условиях для читателей.

1. Данные, данные, данные

В этом нет ничего удивительного, поскольку данные являются ключевым ингредиентом любой модели машинного обучения, и прогнозирование запасов не является исключением. Чтобы понять, что является основанием для нашей осторожности, нам нужно сначала понять процесс генерации данных. Обычно анализируемые наборы данных предметной области для прогнозирования запасов, такие как макроэкономические, фундаментальные и ценовые данные, являются примерами данных временных рядов. Эта категория данных страдает от явления, называемого последовательная корреляция. Проще говоря, значение каждого наблюдения привязано к значению, наблюдаемому в предыдущем временном интервале.

Чтобы проиллюстрировать это на практике, рассмотрим пример с ценами. Если мы наблюдаем какую-либо акцию и отслеживаем ее ценовые движения через дневные интервалы, мы видим, что цена закрытия для каждой акции прочно привязана к цене закрытия предыдущего дня, за исключением некоторых незначительных отклонений, но почему? В простейшей форме акции представляют собой долю владения в базовой компании, стоимость которой определяется вечным уравнением бухгалтерского учета: активы минус обязательства равны собственному капиталу. Собственный капитал - это фундаментальная стоимость компании, составляющая основную часть стоимости акций, с настроениями инвесторов, торговым поведением и шумом, определяющими ежедневные отклонения. Стоимость активов компании, а именно машин, земли, зданий и инвентаря, существенно не меняется в одночасье, равно как и ее обязательства (что не всегда верно), поэтому, за исключением крупного бухгалтерского скандала, фундаментальная стоимость компании должна быть относительно стабильной. на повседневной основе.

Что это значит для машинного обучения? это означает, что модель может показаться достаточно хорошей, если «проиграть» свою функцию потерь и выбрать цену предыдущего дня в качестве прогноза для цены текущего дня. Это ясно наблюдается, когда результаты прогнозирования многих «хорошо работающих моделей прогнозирования» очень похожи на запаздывающую скользящую среднюю фактической цены акций. Любая такая модель будет постоянно гнаться за реальной ценой.

В том же духе возникает проблема стационарности. В основе многих моделей машинного обучения и методов предварительной обработки лежит предварительное предположение о том, что параметры распределений, из которых генерируются данные, являются постоянными. В качестве альтернативы это можно интерпретировать как среднее значение и стандартное отклонение характеристик не меняются со временем, и в данных нет тенденции. Один взгляд на часто используемые квартальные данные по ВВП США с течением времени быстро развеет это представление. В этих данных явно прослеживается тенденция, и она должна быть, если экономика будет расти, вы ожидаете, что ее объем производства (и цены на эту продукцию) будут расти с течением времени.

Источник: BEA, номинальный ВВП США в динамике

Среднее и стандартное отклонение в этих данных зависит от времени и вызывает некоторые неудобства при слепом применении таких алгоритмов, как регрессия, и распространенных методов предварительной обработки, таких как стандартизация и анализ главных компонентов.

Один из часто используемых методов борьбы с этими отклонениями в данных временных рядов как в (инвестиционной) литературе, так и на практике состоит в том, чтобы взять доходность цен на акции (или скорость изменения для других данных) между двумя периодами вместо абсолютного значения. Интуиция, стоящая за этим, аналогична интуиции удаления тренда или дифференцирования в прогнозировании временных рядов ARIMA, цель которого - сделать данные стационарными. Если мы применим это к нашим данным по ВВП США, мы получим что-то, что начинает напоминать обычную переменную iid.

Этот подход не идеален и порождает множество других проблем, но это широко распространенная методология.

Хотя есть много других аспектов финансовых данных, о которых необходимо знать пользователям, для краткости я рассмотрю их более подробно в одном из следующих постов.

2. Условная ошибка - последствия в реальном мире

Большинство контролируемых методов машинного обучения подбираются путем оценки или оптимизации набора весов, которые минимизируют некоторую целевую функцию. В задачах регрессии этой функцией часто является Среднеквадратичная ошибка (RMSE), а в классификации - Перекрестная энтропия. Для многих классических эталонных наборов данных, таких как ImageNet Large Scale Visual Recognition Challenge (ILSVRC), это превратилось в гонку ко дну, в которой высококвалифицированные команды последовательно (и успешно) сокращают количество ошибок стремительно растет из года в год. Хотя это может быть уместно для целей продвижения исследований, акцент в ML на устранении некоторого произвольного ошибочного термина способствовал абстракции реальной проблемы под рукой.

В инвестициях поиск модели, которая классифицирует, когда покупать или продавать акции с точностью 95%, может показаться отличным результатом, но часто эта модель не имитирует истинное поведение портфеля и, что наиболее важно, не принимает во внимание стоимость ошибаться. Рынки непостоянны, в то время как кажущаяся благоприятная инвестиционная среда может сохраняться в течение нескольких лет, коррекция или событие « Черный лебедь » (придуманное Нассимом Талебом) , может развернуться за считанные минуты.

Если один из примеров, который характеризует ваш 5% -ный коэффициент ошибок, совпадет с одним из этих редких, но катастрофических событий, почти наверняка пострадает ваш портфель, возможно, в той степени, в которой начисленные вознаграждения из правильных 95% время (при условии отсутствия ошибки обобщения) полностью стирается. Эта проблема еще более серьезна для профессиональных инвестиционных менеджеров, поскольку 10% -ной просадки достаточно, чтобы спровоцировать массовый исход инвесторов из своих фондов. Последствия, возникающие из-за асимметрии выгоды и боли, прочно укоренились в психике опытных практикующих. Вот почему отрасль так же сосредоточена на управлении рисками, как и на получении прибыли.

Урок для машинного обучения / специалиста по данным состоит в том, чтобы понять последствия своей модели, уйти от получения информации исключительно на основе коэффициента ошибок и функции потерь, выполнить пошаговое тестирование, как если бы вы держали ваши прогнозируемые сделки во времени и ввести чувствительные к затратам меры, которые наказывают вашу модель за ошибочность.

3. Победить рынок - это сложнее, чем вы думаете

Недостаточно просто иметь хорошую модель машинного обучения, приносящую положительную отдачу, чтобы понять, почему нам нужно вводить концепцию альтернативных издержек. Этот ключевой экономический принцип иллюстрирует цену упущенной следующей лучшей возможности. Если бы мы не инвестировали наши деньги, используя предложенную модель машинного обучения, следующая лучшая возможность, требующая небольшого мастерства, - это покупка на рынке, предположительно путем покупки ETF. Эти продукты дают вам доходность индекса, такого как S&P 500, по относительно низкой цене. Таким образом, необходимо задать вопрос: если производительность вашей модели с поправкой на транзакционные издержки существенно не превышает, скажем, 18,74% от календарного года S&P 500 до настоящего времени, действительно ли вы использовать свои деньги с пользой? Профессиональные инвестиционные менеджеры почти всегда привязаны к некоторому эталону, где их навыки измеряются их способностью превосходить их, в отличие от машинного обучения / специалиста по данным, где они часто оценивают свои финансовые прогнозы изолированно.

Заключение

Хотя этот список не является ни полным, ни исчерпывающим, я надеюсь, что дал вам некоторое представление о ключевых моментах, которые следует учитывать при построении модели машинного обучения для прогнозирования акций. Как и в случае с любой другой задачей, связанной с данными, ML может предоставить вам набор инструментов для использования, но поиск решения по-прежнему требует глубокого понимания проблемы.

Заявление об ограничении ответственности: этот пост является исключительно выражением личных взглядов и мнений. Это ни в коем случае не является советом и не отражает точку зрения моего работодателя.