Бритва Оккама, размерность венчурного капитала и теорема о запрете бесплатного обеда - очень полезные принципы, которые помогут нам подумать о недопустимости и переобучении моделей машинного обучения, применяемых в криптографии.

В последнее время я много времени думал о переоснащении и недообучении, когда дело доходит до прогнозов криптоактивов. Наборы криптографических данных - очень уникальная проблема с точки зрения машинного обучения. Для любых криптоактивов наборы данных, доступные для потенциальных прогнозных моделей, относительно малы, а качество невысоко. Кроме того, рынок регулярно удивляет нас беспрецедентным поведением, которое ставит под сомнение все, что узнала прогностическая модель. В результате большинство прогнозных моделей в криптопространстве неспособны чему-либо научиться или недостаточно подходят, или, когда они действительно работают, мы становимся параноиками в отношении того факта, что они могут быть оптимизированы для обучающих данных или переобучены. По мере того как я трачу больше времени на размышления об этих проблемах, есть несколько математических теорий, которые помогли мне составить очень четкую картину о переоснащении и недостаточном подгонке. Сегодня я хотел бы поделиться некоторыми из тех точек зрения, которые, надеюсь, представляют другой взгляд на то, как думать о переобучении и неполном приспособлении в моделях машинного обучения.

Две худшие вещи, которые могут произойти с моделью машинного обучения, - это либо накопление бесполезных знаний, либо получение ничего не значимого из набора обучающих данных. Подумайте о модели, которая пытается предсказать цену ChainLink. Учитывая нехватку данных, вполне вероятно, что модель может ничего не изучить или действительно оптимизировать для существующих данных. В теории машинного обучения эти два явления описываются с использованием терминов «переобучение» и «недообучение» соответственно и они представляют собой две самые большие проблемы в современных решениях для глубокого обучения. Мне часто нравится сравнивать переоснащение глубокого обучения с человеческими галлюцинациями, поскольку первое происходит, когда алгоритмы начинают выявлять несуществующие шаблоны в наборах данных. Недостаточная подготовка ближе к расстройству обучения, которое мешает людям приобретать соответствующие знания для выполнения заданной задачи. Несмотря на свою важность, не существует простого решения проблемы переобучения, и приложениям глубокого обучения часто приходится использовать методы, очень специфичные для отдельных алгоритмов, чтобы избежать переобучения поведения. Эта проблема становится еще более пугающей, если учесть, что люди также невероятно стремительны к переобучению, что выражается в субъективных оценках моделей машинного обучения. Только подумайте, сколько стереотипов вы использовали за последнюю неделю.

Несомненно, наши галлюцинации или иллюзии достоверности присутствуют где-то в наборах данных, используемых при обучении алгоритмов глубокого обучения, что создает еще более хаотичную картину. Интуитивно мы думаем о данных при работе над алгоритмами глубокого обучения, но есть еще один не менее важный и часто забытый элемент моделей глубокого обучения: знания. В контексте алгоритмов глубокого обучения данные часто представляются как постоянные записи в одной или нескольких базах данных, тогда как знания обычно представлены как логические правила, которые можно проверить в данных. В случае криптовалюты данные могут быть торговыми записями, тогда как знания относятся к шаблону, полученному на основе этих записей. Роль моделей глубокого обучения состоит в том, чтобы вывести правила, которые могут быть применяется к новым наборам данных в том же домене. К сожалению, для агентов глубокого обучения мощные вычислительные возможности не являются прямым ответом на накопление знаний, и происходит переоснащение.

Такие проблемы, как переобучение и недообучение, связаны со способностью модели машинного обучения формировать соответствующие знания на основе начального набора обучающих примеров. Концептуально недостаточное оснащение связано с неспособностью алгоритма машинного обучения вывести достоверные знания из исходных данных обучения (например, прогнозная модель Биткойн, которая может узнать что-либо из записей блокчейна) . Напротив, переобучение связано с моделью, которая создает гипотезы, которые являются слишком общими или абстрактными, чтобы приводить к практическим (например: прогнозная модель Биткойн, которая оптимизируется для таких сценариев, как мартовский крах или недавнее отсутствие волатильности и не может адаптироваться к новым рыночным условиям). Проще говоря, модели с недостаточной подгонкой выглядят глупо, в то время как модели с переобучением имеют тенденцию вызывать галлюцинации (представляйте вещи, которых не существует) :).

Возможности модели: основной элемент для количественной оценки переобучения и недостаточности в моделях машинного обучения

Давайте попробуем сформулировать простую методологию понимания переобучения и недостаточного приспособления в контексте алгоритмов машинного обучения.

Типичный сценарий машинного обучения начинается с начального набора данных, который мы используем для обучения и тестирования производительности алгоритма. Давайте подумаем о модели прогнозирования биткойнов, которая использует записи книги заказов на обмен. Статистическая мудрость подсказывает, что мы используем 80% набора данных для обучения модели, а оставшиеся 20% - для ее тестирования. Во время фазы обучения выходная модель будет вызывать определенное отклонение от данных обучения, которое мы часто называем ошибкой обучения. Точно так же отклонение, возникающее во время фазы тестирования, называется ошибкой теста. С этой точки зрения о производительности модели машинного обучения можно судить по ее способности выполнять две фундаментальные задачи:

1. Уменьшите ошибку обучения

2 - Сократите разрыв между ошибками обучения и тестирования

Эти два простых правила могут помочь нам понять концепции переобучения и недостатка. В основном, недостаточная подгонка происходит, когда модель не соответствует правилу № 1 и не может получить достаточно низкую ошибку из обучающего набора. Затем происходит переоснащение, когда модель не соответствует правилу № 2 и разрыв между ошибками теста и обучения слишком велик. Понимаете? два простых правила, которые помогут нам количественно оценить уровни переобучения и недостаточного соответствия алгоритмов машинного обучения.

Еще одна очень важная концепция, которая чрезвычайно помогает специалистам по машинному обучению справляться с недостаточным и переобучением, - это понятие емкости. Концептуально емкость представляет собой количество функций, которые модель машинного обучения может выбрать в качестве возможного решения. например, модель линейной регрессии может иметь все полиномы степени 1 вида y = w * x + b как емкость (что означает все потенциальные решения).

Емкость - это невероятно актуальная концепция моделей машинного обучения. Технически алгоритмы машинного обучения работают лучше всего, когда они имеют емкость, пропорциональную сложности задачи и входу набора обучающих данных. Модели машинного обучения с низкой пропускной способностью непрактичны, когда речь идет о решении сложных задач, и, как правило, не подходят. Аналогичным образом, модели с большей емкостью, чем это необходимо, быстро переоборудуются. Если бы мы должны были сопоставить наш сценарий прогнозной модели Биткойна с помощью техники глубокого обучения, мы должны были бы ожидать более высокой емкости, чем если бы мы использовали модель линейной регрессии. С этой точки зрения емкость представляет собой меру, с помощью которой мы можем оценить склонность модели к недостаточному или избыточному соответствию.

Три теории, позволяющие понять переоснащение и недообучение в моделях машинного обучения

Бритва Оккама

Принцип бритвы Оккама - это то, что происходит, когда философы вовлекаются в машинное обучение :) Истоки этой древней философской теории восходят где-то между 1287 и 1347 годами, связывая ее с философами, такими как Птолемей. По сути, теория бритвы Оккама гласит, что если у нас есть конкурирующая гипотеза, объясняющая известные наблюдения, мы должны выбрать самую простую. От Шерлока Холмса до Монаха бритва Оккама была повсеместной. в детективах мирового уровня, которые часто следуют простейшим и наиболее логичным гипотезам, чтобы раскрыть сложные тайны.

Бритва Оккама - это мудрый философский принцип, которому нужно следовать в нашей повседневной жизни, но его применение в машинном обучении в лучшем случае вызывает споры. Более простые гипотезы, безусловно, предпочтительнее с вычислительной точки зрения в мире, в котором алгоритмы печально известны своей затратностью ресурсов. Кроме того, более простые гипотезы легче обобщить с помощью вычислений. В случае криптографических моделей многие специалисты стараются отдавать предпочтение более простым моделям машинного обучения, поскольку их легче интерпретировать. Однако сложность сверхпростых гипотез заключается в том, что они часто приводят к слишком абстрактным результатам для моделирования сложных сценариев. В результате модель с достаточно большим обучающим набором и большим количеством измерений должна выбирать достаточно сложную гипотезу, которая может дать небольшую ошибку обучения. Иначе будет подсказка недообучить.

VC Dimension

Бритва Оккама - прекрасный принцип экономии, но эти абстрактные идеалы не находят прямого воплощения в моделях машинного обучения, которые живут во вселенной чисел. К этой проблеме обратились основатели статистической теории Вапник и Червонекис (ВК), которые разработали модель для количественной оценки емкости статистического алгоритма. Этот метод, известный как измерение VC, основан на определении наибольшего числа m, из которого существует обучающий набор из m различных x точек, которые целевая функция машинного обучения может обозначать произвольно.

Измерение VC является одним из краеугольных камней статистического обучения и использовалось в качестве основы для многих интересных теорий. Например, измерение VC помогает объяснить, что разрыв между ошибкой обобщения и ошибкой обучения в модели машинного обучения уменьшается по мере увеличения размера обучающей выборки, но тот же разрыв увеличивается по мере увеличения емкости модели. Другими словами, модели с большими обучающими наборами с большей вероятностью выберут приблизительно правильную гипотезу, но если существует слишком много потенциальных гипотез, мы, скорее всего, в конечном итоге примем неверную. В случае криптопрогнозирования Для моделей, VC Dimension будет отдавать предпочтение моделям, использующим более крупные и богатые наборы данных, такие как торговые записи, по сравнению с более мелкими и новыми наборами данных, такими как производные финансовые инструменты.

Теорема о запрете бесплатного обеда

Я хотел бы закончить эту статью одним из моих любимых принципов машинного обучения, относящимся к проблеме переобучения-недообучения. Теорема о запрете бесплатного обеда утверждает, что при усреднении по всем возможным распределениям, генерирующим данные, каждый алгоритм классификации имеет примерно одинаковую частоту ошибок при классификации ранее ненаблюдаемых точек. Мне нравится думать о теореме о запрете бесплатного обеда как о математической контртеории ограничения алгоритмов машинного обучения, которые заставляют нас обобщать полуабсолютные знания с использованием конечного обучающего набора. В логике, например, вывод универсальных правил из конечного набора примеров считается «нелогичным». Для практиков машинного обучения теорема о запрете бесплатного обеда - это еще один способ заявить, что ни один алгоритм не лучше других при наличии достаточного количества наблюдений. Другими словами, роль модели машинного обучения состоит не в том, чтобы найти универсальную функцию обучения, а, скорее, в поиске гипотезы, которая лучше соответствует целевому сценарию. В случае прогнозов криптоактивов модели, которые хорошо работают с записями на крупных биржах, могут быть не лучшим решением для наборов данных с более мелких бирж. Точно так же модели, которые хорошо работают с большими наборами данных блокчейнов, такими как Биткойн, могут не работать при применении к новым цепочкам блоков, таким как Bitcoin Cash.

Переоснащение и недостаточное оснащение остаются двумя наиболее серьезными проблемами в приложениях машинного обучения. Такие теории, как измерение VC, бритва Оккама и теорема о запрете бесплатного обеда, обеспечивают прочную теоретическую основу для анализа причин переобучения и неподходящих условий в решениях машинного обучения. Понимание и количественная оценка возможностей модели машинного обучения остается фундаментальным шагом на пути к пониманию ее склонности к переобучению или неполному соответствию.