Эта статья послужит кратким введением в статистическое обучение для алгоритмической торговли. Он начнется с объяснения того, что такое статистическое обучение, его цель и некоторые методы его выполнения. Это резюме основано на главе «Статистическое обучение» из книги «Успешная алгоритмическая торговля» Майкла Л. Холлс-Мура.

Фото Lum3n: https://www.pexels.com/photo/black-click-pen-on-white-paper-167682/

Что такое статистическое обучение?

Статистическое обучение — это принцип использования данных для прогнозирования. В случае алгоритмической торговли цель состоит в том, чтобы предсказать стоимость финансового актива. Например, для прогнозирования цены FTSE 100. Прогнозы делаются путем анализа данных о цене этого финансового актива. Эти данные могут состоять из цены, волатильности и фундаментальных данных, таких как соотношение цены и прибыли компаний, включенных в FTSE 100.

Принцип статистического обучения легко представить с помощью символов:

Y = f(X) + e

Y = ответ

X = (x1, x2, …, xp)

X — это вектор p различных признаков (таких как соотношение цены и прибыли).

e= ошибка или шумовой термин

Этот член ошибки представляет информацию, которая не включена в нашу модель. Например, соотношение цена/прибыль для компании может быть отличным, но внезапная смена руководства может привести к снижению цены. Это то, чего модель не могла предвидеть.

f — неизвестная функция предикторов.

Итак, это означает: ответ (Y) равен функции X, где X — вектор p различных признаков плюс погрешность.

Цель статистического обучения состоит в том, чтобы аппроксимировать форму f, установленную по исследуемым данным, и вычислить точность оценок. Другими словами, мы ищем формулу, максимально приближенную к значению Y.

Каковы две основные задачи статистического обучения?

Двумя основными задачами статистического обучения являются предсказание и вывод. Прогнозирование означает прогнозирование реакции Y с использованием «новых наблюдаемых» данных, например, путем анализа сегодняшних данных о цене FTSE 100, чтобы предсказать завтрашнее значение.

Различные оценки f (разные подходы к расчету оценочной цены) могут привести к разной точности. Ошибка, которая измеряет точность статистической модели, называется приводимой ошибкой (уменьшаемой, потому что ее можно уменьшить путем точной настройки модели или выбора другой). Как упоминалось выше, всегда будет неустранимая ошибка, часть, которую нельзя изменить. Следовательно, цель прогнозирования состоит в том, чтобы максимально минимизировать уменьшаемую ошибку, чтобы создать максимально близкие оценки цены финансового актива.

Второй основной задачей статистического обучения является вывод. Определение «умозаключения» следующее: «вывод, сделанный на основе доказательств и рассуждений». Это означает, что отношение между X (предикторами) и Y (откликом) имеет важное значение. При работе с предсказанием отношение между X и Y не имеет большого значения. Важно то, насколько точны прогнозы. При выводе важно, как был сделан тот или иной вывод. Вывод не является важной частью алгоритмической торговли, но во многих случаях доказывает свою полезность.

Как построить формулу для прогнозирования?

Сначала будут описаны различные типы моделей. Сравниваются параметрические и непараметрические модели, и объясняется разница между обучением с учителем и без учителя.

Параметрические модели используются, когда предполагается форма f. Первым решением будет выбрать линейную или нелинейную модель. Если анализируется график и можно сделать вывод о том, что данные являются линейными, решение будет состоять в том, чтобы использовать линейную модель для соответствия данным. Непараметрические модели могут соответствовать большему диапазону форм для f, но требуют больше данных наблюдений. Эти модели дают большую гибкость в оценке значений Y, но эта гибкость не лишена опасности. Дополнительная гибкость повышает вероятность переполнения данных.

Для получения дополнительной информации о переоснащении: https://algotrading101.com/learn/what-is-overfitting-in-trading/#:~:text=Overfitting%20in%20trading%20is%20ваша%20стратегия%20будет%20быть %20выгодно.

Сложность данных фондового рынка

Простая модель, такая как линейная модель, даст ужасные прогнозы, поскольку модель недостаточно гибкая, чтобы соответствовать данным. Более продвинутые и гибкие модели в большинстве случаев будут переобучать, поскольку они слишком гибкие и следуют шуму, а не прогнозным значениям. Этот шум особенно присутствует в финансовых временных рядах, и поэтому прогнозирование финансовых временных рядов может быть намного сложнее, чем прогнозирование других временных рядов, таких как прогноз продаж. Вот некоторые интересные вопросы, над которыми следует подумать: «Какие рыночные данные содержат наибольшее или наименьшее количество шума?» «Есть ли разница между данными фондового рынка и данными криптовалюты?» «Есть ли разница во времени? На 5-минутном графике больше шума, чем на дневном?

Обучение с учителем — это метод статистического машинного обучения, при котором для обучения модели используются данные с пометкой. Эта метка содержит правильный ответ. В случае торгового алгоритма меткой будет цена актива. Обучение без учителя — это когда данные не имеют правильного ответа. Это более сложный подход, поскольку машина не может знать правильный ответ.

Какие методы используются в алгоритмической торговле?

В этом разделе будут представлены три метода, которые позволяют прогнозировать цену финансового актива для создания прибыльного торгового алгоритма. Сначала обсуждается регрессия, затем модели классификации и временных рядов.

Регрессия – это контролируемый метод машинного обучения, который можно использовать для прогнозирования и вывода. Регрессия моделирует взаимосвязь между зависимой переменной (Y) и ее независимыми переменными (X). Наиболее популярной моделью регрессии является линейная регрессия, прямолинейная связь между зависимой переменной и ее независимой переменной. Другой метод регрессии, называемый логистической регрессией, используется для прогнозирования категориальных ответов. В случае алгоритмической торговли логистическая регрессия может предсказать, будет ли цена финансового актива расти, падать или оставаться неизменной.

Классификация – это еще один метод контролируемого машинного обучения, используемый для классификации наблюдения по категориям. Эти категории могут быть неупорядоченными (цвета) или упорядоченными (низкий, средний, высокий). Как обсуждалось в разделе о регрессии, логистическая регрессия — это модель, используемая для классификации. Другие включают машины опорных векторов (SVM) и искусственные нейронные сети (ANN).

Модели временных рядов — это модели, которые анализируют финансовые временные ряды. Целью этих моделей является прогнозирование будущих значений временных рядов путем просмотра значений предыдущих временных рядов. Два больших семейства моделей временных рядов — это авторегрессионное интегрированное скользящее среднее (ARIMA), которое моделирует вариации абсолютного значения временного ряда, и модели авторегрессионной условной гетероскедастичности (ARCH), используемые для моделирования дисперсии (волатильности) временного ряда. . Несколько моделей, представляющих непрерывные временные ряды, используются для изучения значений непрерывных временных рядов, таких как геометрическое броуновское движение, модель стохастической волатильности Хестона и модель Орнштейна-Уленбека.