Введение:

Линейная регрессия — это широко используемый статистический метод для прогнозирования непрерывных результатов на основе взаимосвязи между независимыми и зависимыми переменными. Для оценки эффективности модели линейной регрессии используются различные метрики оценки. В этом сообщении блога мы рассмотрим и объясним формулы, преимущества и недостатки, а также некоторые общие показатели оценки линейной регрессии.

Описание набора данных:

Набор данных о зарплате состоит из двух столбцов: YearsExperience и Salary. Столбец YearsExperience представляет количество лет опыта, а столбец Salary представляет соответствующую заработную плату отдельных лиц.

После применения линейной регрессии мы можем наблюдать наиболее подходящую линию, отмеченную на скриншоте как «x». Точки данных, отмеченные зелеными кружками, представляют фактические значения. Несоответствие между этими фактическими значениями и соответствующими прогнозируемыми значениями из нашей модели называется ошибкой. Другими словами, ошибка представляет собой отклонение или расхождение между истинными результатами и прогнозируемыми значениями, сгенерированными нашей моделью линейной регрессии. Целью оценки этих ошибок является оценка точности и производительности модели при прогнозировании.

Например, давайте посмотрим на фактические значения по сравнению с прогнозируемыми за 3,3 года опыта.

Фактическое значение 54 446.

Прогнозируемое значение 57190,20107683.

Таким образом, ошибка (фактическое — прогнозируемое) заключается в прогнозировании значения, которое находится в index1.

57190.20107683–54446.0

=2,744.20107683

Указанная выше ошибка относится только к одной точке, а общая ошибка равна сумме квадратов ошибок по всем точкам.

Теперь давайте рассмотрим различные метрики оценки, которые можно использовать для количественной оценки и анализа ошибок в прогнозах нашей модели линейной регрессии. Эти метрики обеспечивают количественную меру расхождений между фактическими значениями и прогнозируемыми значениями. Изучая эти показатели оценки, мы можем получить представление о точности и производительности модели при прогнозировании.

Среднеквадратическая ошибка (MSE). Среднеквадратическая ошибка измеряет среднеквадратичную разницу между прогнозируемыми и фактическими значениями. Он количественно определяет общую точность прогнозов модели.

Преимущества:

1. MSE широко используется и легко интерпретируется.

2. За большие ошибки штрафуют больше, чем за меньшие ошибки из-за возведения в квадрат остатков.

3. Он гарантирует, что сумма остатков равна нулю, что делает его несмещенным оценщиком.

Недостатки:

1. Метрика чувствительна к выбросам, так как их квадраты остатков могут существенно повлиять на значение.

2. Поскольку MSE рассчитывается с использованием квадратов, это может не дать четкого понимания величины ошибки.

Среднеквадратическая ошибка (MSE), рассчитанная для нашего набора данных.

Среднеквадратичная ошибка (RMSE):

Среднеквадратическая ошибка — это квадратный корень из MSE. Он обеспечивает среднюю ошибку между прогнозируемыми и фактическими значениями в исходной шкале зависимой переменной.

Преимущества:

1. Среднеквадратическая ошибка легко интерпретируется, поскольку выражается в тех же единицах, что и зависимая переменная.

2. Он обеспечивает прямое измерение средней величины ошибки предсказания.

Недостатки:

1. Подобно MSE, RMSE чувствителен к выбросам.

2. Это может быть неприемлемо, когда основное внимание уделяется процентной или пропорциональной ошибке.

Среднеквадратическая ошибка (MSE), рассчитанная для нашего набора данных.

Средняя абсолютная ошибка (MAE):

Средняя абсолютная ошибка измеряет среднюю абсолютную разницу между прогнозируемыми и фактическими значениями. Он обеспечивает линейную меру средней ошибки предсказания.

Преимущества:

1. MAE не чувствителен к выбросам, поскольку использует абсолютные разности вместо квадратов остатков.

2. Его легче интерпретировать, поскольку он представляет собой среднюю величину ошибок.

Недостатки:

1. MAE обрабатывает все ошибки одинаково, независимо от их величины, что может быть нежелательно в некоторых сценариях.

Средняя абсолютная ошибка рассчитана для нашего набора данных.

R-квадрат (R²) :

R-квадрат — еще одна оценочная метрика, используемая в линейной регрессии для оценки соответствия модели. В отличие от среднеквадратичной ошибки (MSE), которая фокусируется на величине ошибок, R² измеряет долю дисперсии зависимой переменной, которая может быть объяснена независимыми переменными.

R² находится в диапазоне от 0 до 1, где:

· Значение R², равное 0, указывает на то, что модель не объясняет дисперсию зависимой переменной, что предполагает плохое соответствие.

· Значение R², равное 1, указывает на идеальное совпадение, когда все отклонения в зависимой переменной объясняются независимыми переменными.

Преимущества:

· R² легко интерпретировать и понять, так как он представляет собой процент дисперсии, объясняемой моделью.

· Это позволяет проводить прямое сравнение между различными моделями, при этом более высокое значение R² указывает на лучшее соответствие.

Недостатки:

· R² имеет тенденцию к увеличению с добавлением большего количества независимых переменных, даже если они не имеют реальной предсказательной силы. Это может привести к переоснащению.

Более высокий показатель R² предполагает, что большая часть дисперсии зависимой переменной может быть объяснена независимыми переменными, что указывает на лучшее соответствие. И наоборот, более низкий показатель R² означает, что модель объясняет меньше дисперсии и может быть не столь эффективна для точного прогнозирования зависимой переменной.

Важно отметить, что R² следует использовать в сочетании с другими показателями оценки, такими как MSE или RMSE, чтобы получить всестороннее представление о производительности модели и не полагаться исключительно на R² для оценки модели.

Формула для расчета R-квадрата (R²) выглядит следующим образом:

где:

SSR (сумма квадратов остатков) представляет собой сумму квадратов разностей между прогнозируемыми и фактическими значениями.

SST (Общая сумма квадратов) представляет собой сумму квадратов разностей между фактическими значениями и средним значением зависимой переменной.

Числитель (SSR) представляет собой необъяснимое изменение зависимой переменной, а знаменатель (SST) представляет собой общее изменение зависимой переменной.

Заключение:

При оценке моделей линейной регрессии разные метрики оценки имеют явные преимущества и недостатки. Выбор подходящей метрики зависит от конкретных требований анализа и характера данных. Среднеквадратическая ошибка (MSE) и среднеквадратическая ошибка (RMSE) подходят, когда целью является минимизация общей ошибки, в то время как средняя абсолютная ошибка (MAE) обеспечивает линейную меру средней ошибки. R-квадрат помогает оценить качество соответствия и долю объясненной дисперсии. Понимая эти показатели, аналитики могут эффективно оценивать эффективность моделей линейной регрессии и принимать обоснованные решения.