Памятка по машинному обучению для интервью Data Scientist: часто задаваемые вопросы о линейной регрессии…

Вот краткое изложение часто задаваемых вопросов по машинному обучению во время интервью с учеными данных. Я сделал шпаргалку максимально лаконичной. Все содержание является ключевым знанием, которое необходимо помнить. Надеюсь, это послужит руководством по подготовке к собеседованию в DS!

Две основные цели задачи регрессии

Делать предсказания
Определите влияние независимых переменных на целевую переменную

Два типа проверки гипотез по оценке параметра

t-тест: проверка гипотезы по одному параметру, t-статистика рассчитывается как оценка параметра, деленная на стандартную ошибку оценки параметра.
F-тест: проверка всей модели по сравнению с удалением одного параметра в модели.

Допущения линейной регрессии:

1. Линейная зависимость между целевой переменной и независимыми переменными.

2. Гомоскедастичность

3. Независимость

4. Ожидаемое значение остатков равно 0.

5. Нормальность

6. Отсутствие или небольшая мультиколлинеарность.

Если вы нарушаете предположения:

Гомоскедастичность: невозможно оценить изменчивость оценок параметров.
Ожидаемое значение остатков равно 0: не может иметь несмещенной оценки
Нормальность: нельзя делать выводы по параметрам, таким как проверка гипотез и расчет доверительных интервалов.

Проверка предположений (регрессионная диагностика):

1. Анализ остатков

Гетероскедастичность: нанесите остатки на график по сравнению с подобранными значениями, чтобы проверить, увеличивается ли разброс остатков по мере увеличения подобранного значения.
Нормальность: QQ-сюжет

2. Линейность:

Диаграмма рассеяния, чтобы проверить, является ли связь между x и y линейной

3. Мультиколлинеарность

Коэффициент инфляции дисперсии (VIF)
Матрица корреляции между переменными

4. Независимость

График ACF (проверьте автокорреляцию)

Проблемы мультиколлинеарности

Дисперсия параметров имеет тенденцию к резкому увеличению (но это не искажает оценку коэффициента)
Оценка параметров становится очень чувствительной к небольшим изменениям данных, иногда меняется даже знак параметра.

Мультиколлинеарность не влияет на предсказание, но влияет на интерпретируемость.

Если наша цель состоит в том, чтобы сделать чистое предсказание, мультиколлинеарность приемлема.
Если наша цель состоит в том, чтобы обнаружить взаимосвязь между целевой переменной и объясняющей переменной, интерпретировать результаты, мультиколлинеарность является проблемой.

Как бороться с мультиколлинеарностью

Удалите некоторые сильно коррелированные переменные
Проведите анализ основных компонентов: создайте некоррелированные переменные

Как исправить гетероскедастичность

Преобразуйте целевую переменную (возьмите журнал целевой переменной)
Используйте взвешенную регрессию (придает небольшой вес точкам данных с более высокой дисперсией)

Выбор переменных/оценка модели

Ступенчатая регрессия: выбор назад и вперед. Недостатки пошагового: может пропустить оптимальную модель (жадный поиск)
Выбор переменных на основе критериев: 1. Скорректированный R² 2. AIC, BIC: выбор модели на основе теории информации (BIC имеет больший штраф за большее количество параметров) 3. Оценка вне выборки: перекрестная проверка

Памятка по машинному обучению для интервью Data Scientist: часто задаваемые вопросы о линейной регрессии…

Похожие вопросы