Как слово путается с типом модели

В науке о данных проблемы регрессии — это проблемы, когда мы хотим обучить модель, используя функции, полученные из данных, которые могут предсказать числовое значение (например, цель) в пределах определенного диапазона достоверности (обычно 95%). Предполагается, что результат, который мы хотим предсказать, представляет собой непрерывное числовое значение.

Например, предположим, что мы хотели предсказать приблизительную заработную плату на основе слов, указанных в описании работы. Кстати, над этой проблемой действительно работает компания (см. здесь).

Поскольку процентный результат, зарплату, легко представить как непрерывный числовой результат, этот пример является реальной проблемой, которую легко преобразовать в проблему науки о данных. Фактически, проблемы регрессии часто являются первым шагом в любой организации к включению науки о данных в свои решения, потому что большинство предприятий четко понимают показатели, которые определяют их бизнес-решения (например, деньги [прибыль, доход, зарплата и т. д.), объемы [произведенные единицы продукции]. в день, отработанные часы и т. д.] и т. д.).

Чтобы обучить регрессионную модель для решения проблемы прогнозирования заработной платы на основе описаний должностей, нам необходимо создать набор данных, который включает как функции, полученные из описаний должностей, так и зарплаты, связанные с каждым описанием работы. Простое решение может выглядеть примерно так:

1. Используйте векторизатор подсчета, чтобы сгенерировать первые n слов и фраз из описания работы.

а. Каждое слово и фраза будут столбцом признаков в наборе данных.

2. Преобразуйте каждое описание работы с помощью нашего векторизатора подсчета, чтобы каждое описание работы теперь было представлено частотностью различных слов и фраз в каждом из n столбцов.

3. Согласуйте зарплаты, связанные с каждой должностной инструкцией.

4. Обучите классическую модель множественной регрессии, используя функции для прогнозирования заработной платы.

5. Оцените производительность с помощью R-квадрата

6. Оцените вклад каждого признака (например, столбца слов или фраз) в решение, изучив коэффициенты (сила и значимость [p-значение]).

В приведенном выше примере мы продемонстрировали, как получить простую модель множественной регрессии для прогнозирования заработной платы по описаниям должностей на основе функций, которые мы можем извлечь из этих описаний. Мы также предполагаем, что каждая функция (например, слово или фраза) имеет линейную связь с заработной платой с использованием простой множественной регрессии. Более того, без какого-либо выбора функций мы также рискуем снизить способность моделей точно обобщать новые описания должностей, которые нуждаются в прогнозировании заработной платы.

К счастью, есть много других типов моделей, которые мы можем использовать для решения таких проблем, как нелинейность и сложность модели. Вот лишь несколько различных алгоритмов модели регрессии и несколько заметок о том, что они помогают нам преодолеть:

Множественная регрессия:

Самый простой алгоритм модели, который изучает веса (например, коэффициенты), необходимые для выполнения линейной комбинации признаков для прогнозирования числового результата. Эти модели просты в построении, легко интерпретируются и эффективны в вычислительном отношении. С другой стороны, они также предполагают прямолинейные (например, прямые) отношения с переменной результата. Эти модели лучше всего обобщаются, когда результат нормально распределен, коэффициенты признаков в значительной степени связаны с результатом, а ошибки (например, остатки) также нормально распределены.

Ридж и регрессия Лассо:

И гребенчатая, и лассо-регрессия используют разные поправки при оценке коэффициентов, которые помогают работать с очень сложными моделями. То есть модели, включающие в себя множество функций. Общая идея заключается в том, что коэффициенты штрафуются (например, уменьшаются до 0) по мере сложности (например, большего количества функций) модели.

Алгоритмы нелинейной регрессии:

o Деревья решений — это форма нелинейной модели, которую можно использовать для прогнозирования числовых значений. Основная идея заключается в том, что деревья решений создают серию правил разделения на основе признаков, чтобы определить сложное «дерево» разбиений при разных значениях признаков, чтобы в конечном итоге прийти к прогнозу. Эти модели могут быть более сложными в вычислительном отношении, чем традиционные регрессионные модели, и очень чувствительны к диапазонам обучающих данных, а это означает, что модели могут плохо обобщаться.

o Случайные леса похожи на деревья решений, но вместо одного дерева решений случайный лес объединяет несколько деревьев решений, полученных из выборок данных и используемых для создания среднего прогноза. Усреднение по нескольким «слабым» деревьям — вот почему эти модели известны как модели ансамбля. Случайные леса еще более требовательны к вычислительным ресурсам, чем деревья решений, поэтому их обучение требует много времени.

o Машины опорных векторов (SVM) отличаются от традиционной регрессии тем, что они пытаются идентифицировать гиперплоскость прогностических значений, которые существуют в более высоких измерениях, чем регрессия. В множественной регрессии мы получаем линию прогноза. В SVM мы получаем гиперплоскость, которая создается как функция скалярного произведения каждого вектора признаков, чтобы определить значения коэффициентов, которые дают гиперплоскость с наименьшим расстоянием между каждой точкой данных.

Хотите узнать о науке о данных, карьерном росте, жизни или неправильных бизнес-решениях? Подпишитесь на мою рассылку здесь и получите ссылку на мою бесплатную электронную книгу.