Предположим, компания создает новый отдел аналитики и хочет укомплектовать его аналитиками данных. Теперь предположим, что компания хочет решить, сколько платить этим новым аналитикам. Для этого они рассматривают ряд вопросов:

  1. Сколько в месяц зарабатывают аналитики в других компаниях?
  2. Какие факторы влияют на их ежемесячную заработную плату?
  3. Как эти факторы связаны с ежемесячной оплатой труда и насколько прочна эта взаимосвязь?
  4. Насколько точно эти факторы могут предсказать размер заработной платы? — И так далее.

Предположим, компания хотела бы использовать имеющиеся у нее данные об аналитиках в других фирмах и предсказать, сколько ей нужно будет заплатить своим собственным аналитикам. Простым способом сделать это будет Линейная регрессия.

Линейная регрессия пытается предсказать значения непрерывного числового результата или переменной ответа (например, зарплаты, продаж или цены) на основе значений одного или нескольких предикторов или независимых переменных, при этом предполагается линейная связь между ответ и предиктор(ы). Цель состоит в том, чтобы оценить отклик на основе прямой линии, которая проходит как можно ближе к данным, т. е. разница между фактическими и прогнозируемыми значениями отклика как можно меньше.

То есть, если мы пытаемся предсказать ответ (скажем, Y) на основе предиктора X, линейная регрессия попытается подобрать линию (например, зеленую), чтобы представить отношение между двумя переменными (как показано на рисунке). красные звезды).

То есть мы предполагаем, что отношение между X и Y имеет форму:

Линейная регрессия может быть двух видов в зависимости от количества предикторов, используемых для оценки ответа. Когда мы используем один предиктор для оценки, мы называем процесс простой линейной регрессией, а когда на результат влияет больше предикторов, мы называем процесс множественная линейная регрессия

Большинство различий между ними связаны с количеством предикторов, тем, как выглядит уравнение линии, и математической оценкой параметров модели, если мы пытаемся сделать это вручную. Что касается получения программного обеспечения для запуска линейной регрессии для нас, код для простой и множественной линейной регрессии будет выглядеть одинаково (или даже быть почти идентичным).

Предположения линейной регрессии:

  1. Отклик Y имеет линейную связь с предиктором (предикторами) X, где X может стоять сам по себе, как в случае простой линейной регрессии, или быть вектором длины 'p ', то есть X = (X₁, X₂, …, Xₚ), когда у нас есть 𝑝 › 1 предикторы (т.е. множественная линейная регрессия).
  2. Отсутствие мультиколлинеарности в данных.
    Мультиколлинеарность относится к проблеме, когда предикторы (X) коррелируют друг с другом.
    Хотя это похоже на особенность почти всех реальных наборов данных, мультиколлинеарность подразумевает, что предикторы, которые различаются сходным образом (сильно коррелированы), добавляют в модель более или менее одинаковую информацию.
    Другими словами, если два предиктора коррелированы, наличие второго столбца усложняет модель больше, чем информация о результате (переменная отклика).
  3. Гомоскедастичность остатков.
    Линейная регрессия предполагает, что «разброс» или дисперсия остатков является однородным/четным для всех прогнозов по значениям предикторов.
  4. Остатки распределяются нормально, что упрощает проведение статистических тестов и построение для них доверительных интервалов, если это необходимо.
  5. Отсутствие эндогенности в данных.
    Проблема эндогенности возникает, когда один или несколько предикторов коррелируют с остатками (другими словами, остатки не зависят от предсказатели). Это означает, что большая часть изменчивости ответа могла быть объяснена предикторами, но вместо этого она была забита остатками.
    Линейная регрессия предполагает, что любая вариация, которую можно объяснить предикторами, объясняется предикторами, а остатки покрывают только то, что предикторы не могут уловить.
    Проблему эндогенности в регрессионных моделях можно решить с помощью инструментальных переменных в методе, известном как регрессия с инструментальными переменными, но об этом позже.
  6. Наблюдения не зависят друг от друга:
    То есть значения переменных в данной строке не зависят от значений в строках выше и ниже нее.

Теперь мы подошли к математике, лежащей в основе линейной регрессии, о которой я рассказал в этом посте.