Вот краткое изложение часто задаваемых вопросов по машинному обучению во время интервью с учеными данных. Я сделал шпаргалку максимально лаконичной. Все содержание является ключевым знанием, которое необходимо помнить. Надеюсь, это послужит руководством по подготовке к собеседованию в DS!
Две основные цели задачи регрессии
- Делать предсказания
- Определите влияние независимых переменных на целевую переменную
Два типа проверки гипотез по оценке параметра
- t-тест: проверка гипотезы по одному параметру, t-статистика рассчитывается как оценка параметра, деленная на стандартную ошибку оценки параметра.
- F-тест: проверка всей модели по сравнению с удалением одного параметра в модели.
Допущения линейной регрессии:
1. Линейная зависимость между целевой переменной и независимыми переменными.
2. Гомоскедастичность
3. Независимость
4. Ожидаемое значение остатков равно 0.
5. Нормальность
6. Отсутствие или небольшая мультиколлинеарность.
Если вы нарушаете предположения:
- Гомоскедастичность: невозможно оценить изменчивость оценок параметров.
- Ожидаемое значение остатков равно 0: не может иметь несмещенной оценки
- Нормальность: нельзя делать выводы по параметрам, таким как проверка гипотез и расчет доверительных интервалов.
Проверка предположений (регрессионная диагностика):
1. Анализ остатков
- Гетероскедастичность: нанесите остатки на график по сравнению с подобранными значениями, чтобы проверить, увеличивается ли разброс остатков по мере увеличения подобранного значения.
- Нормальность: QQ-сюжет
2. Линейность:
- Диаграмма рассеяния, чтобы проверить, является ли связь между x и y линейной
3. Мультиколлинеарность
- Коэффициент инфляции дисперсии (VIF)
- Матрица корреляции между переменными
4. Независимость
- График ACF (проверьте автокорреляцию)
Проблемы мультиколлинеарности
- Дисперсия параметров имеет тенденцию к резкому увеличению (но это не искажает оценку коэффициента)
- Оценка параметров становится очень чувствительной к небольшим изменениям данных, иногда меняется даже знак параметра.
Мультиколлинеарность не влияет на предсказание, но влияет на интерпретируемость.
- Если наша цель состоит в том, чтобы сделать чистое предсказание, мультиколлинеарность приемлема.
- Если наша цель состоит в том, чтобы обнаружить взаимосвязь между целевой переменной и объясняющей переменной, интерпретировать результаты, мультиколлинеарность является проблемой.
Как бороться с мультиколлинеарностью
- Удалите некоторые сильно коррелированные переменные
- Проведите анализ основных компонентов: создайте некоррелированные переменные
Как исправить гетероскедастичность
- Преобразуйте целевую переменную (возьмите журнал целевой переменной)
- Используйте взвешенную регрессию (придает небольшой вес точкам данных с более высокой дисперсией)
Выбор переменных/оценка модели
- Ступенчатая регрессия: выбор назад и вперед. Недостатки пошагового: может пропустить оптимальную модель (жадный поиск)
- Выбор переменных на основе критериев: 1. Скорректированный R² 2. AIC, BIC: выбор модели на основе теории информации (BIC имеет больший штраф за большее количество параметров) 3. Оценка вне выборки: перекрестная проверка