Вот краткое изложение часто задаваемых вопросов по машинному обучению во время интервью с учеными данных. Я сделал шпаргалку максимально лаконичной. Все содержание является ключевым знанием, которое необходимо помнить. Надеюсь, это послужит руководством по подготовке к собеседованию в DS!

Две основные цели задачи регрессии

  • Делать предсказания
  • Определите влияние независимых переменных на целевую переменную

Два типа проверки гипотез по оценке параметра

  • t-тест: проверка гипотезы по одному параметру, t-статистика рассчитывается как оценка параметра, деленная на стандартную ошибку оценки параметра.
  • F-тест: проверка всей модели по сравнению с удалением одного параметра в модели.

Допущения линейной регрессии:

1. Линейная зависимость между целевой переменной и независимыми переменными.

2. Гомоскедастичность

3. Независимость

4. Ожидаемое значение остатков равно 0.

5. Нормальность

6. Отсутствие или небольшая мультиколлинеарность.

Если вы нарушаете предположения:

  • Гомоскедастичность: невозможно оценить изменчивость оценок параметров.
  • Ожидаемое значение остатков равно 0: не может иметь несмещенной оценки
  • Нормальность: нельзя делать выводы по параметрам, таким как проверка гипотез и расчет доверительных интервалов.

Проверка предположений (регрессионная диагностика):

1. Анализ остатков

  • Гетероскедастичность: нанесите остатки на график по сравнению с подобранными значениями, чтобы проверить, увеличивается ли разброс остатков по мере увеличения подобранного значения.
  • Нормальность: QQ-сюжет

2. Линейность:

  • Диаграмма рассеяния, чтобы проверить, является ли связь между x и y линейной

3. Мультиколлинеарность

  • Коэффициент инфляции дисперсии (VIF)
  • Матрица корреляции между переменными

4. Независимость

  • График ACF (проверьте автокорреляцию)

Проблемы мультиколлинеарности

  • Дисперсия параметров имеет тенденцию к резкому увеличению (но это не искажает оценку коэффициента)
  • Оценка параметров становится очень чувствительной к небольшим изменениям данных, иногда меняется даже знак параметра.

Мультиколлинеарность не влияет на предсказание, но влияет на интерпретируемость.

  • Если наша цель состоит в том, чтобы сделать чистое предсказание, мультиколлинеарность приемлема.
  • Если наша цель состоит в том, чтобы обнаружить взаимосвязь между целевой переменной и объясняющей переменной, интерпретировать результаты, мультиколлинеарность является проблемой.

Как бороться с мультиколлинеарностью

  • Удалите некоторые сильно коррелированные переменные
  • Проведите анализ основных компонентов: создайте некоррелированные переменные

Как исправить гетероскедастичность

  • Преобразуйте целевую переменную (возьмите журнал целевой переменной)
  • Используйте взвешенную регрессию (придает небольшой вес точкам данных с более высокой дисперсией)

Выбор переменных/оценка модели

  • Ступенчатая регрессия: выбор назад и вперед. Недостатки пошагового: может пропустить оптимальную модель (жадный поиск)
  • Выбор переменных на основе критериев: 1. Скорректированный R² 2. AIC, BIC: выбор модели на основе теории информации (BIC имеет больший штраф за большее количество параметров) 3. Оценка вне выборки: перекрестная проверка