Cheat Sheet за машинно обучение за интервю с специалист по данни : Линейна регресия Често задавани...

Ето обобщение на често срещаните въпроси за машинното обучение, задавани по време на интервю със специалист по данни. Поддържах измамника възможно най-сбит. Цялото съдържание е ключово знание, което трябва да се помни. Надяваме се, че може да ви послужи като ръководство за подготовка преди вашето интервю за DS!

Две основни цели в регресионен проблем

Правете прогнози
Идентифицирайте въздействието на обяснителните променливи върху целевата променлива

Два типа тестове на хипотези за оценката на параметъра

t-тест: тест на хипотеза за един параметър, t-статистиката се изчислява като оценката на параметъра, разделена на стандартната грешка на оценката на параметъра
F-тест: тествайте пълния модел в сравнение с отпадането на един параметър в модела

Предположения за линейна регресия:

1. Линейна връзка между целевата променлива и обяснителните променливи

2. Хомоскедастизъм

3. Независимост

4. Очакваната стойност на остатъците е 0.

5. Нормалност

6. Липса или малка мултиколинеарност.

Ако нарушавате предположенията:

Хомоскедастичност: не може да оцени променливостта на оценките на параметрите
Очакваната стойност на остатъците е 0: не може да има безпристрастна оценка
Нормалност: не може да прави изводи по параметри, като например тестване на хипотези и изчисляване на доверителни интервали

Проверка на предположенията (регресионна диагностика):

1. Анализ на остатъците

Хетероскедастичност: Начертайте остатъците спрямо монтираните стойности, за да проверите дали разпространението на остатъците се увеличава с увеличаването на монтираната стойност.
Нормалност: QQ-график

2. Линейност:

Точкова диаграма, за да проверите дали връзката между x и y е линейна

3. Мултиколинеарност

Фактор на инфлация на дисперсията (VIF)
Корелационна матрица между променливите

4. Независимост

ACF диаграма (проверете автокорелацията)

Проблеми в мултиколинеарността

Дисперсията на параметрите има тенденция да се увеличава драстично (но не отклонява оценката на коефициента)
Оценката на параметрите става много чувствителна към малки промени в данните, понякога дори знакът на параметъра ще се промени

Мултиколинеарността не засяга прогнозирането, но влияе върху интерпретируемостта.

Ако нашата цел е да направим чисто прогнозиране, мултиколинеарността е приемлива.
Ако нашата цел е да открием връзката между целевата променлива и обяснителната променлива, да интерпретираме резултатите, мултиколинеарността е проблем.

Как да се справим с мултиколинеарността

Премахнете някои от силно корелираните променливи
Направете анализ на главните компоненти: създайте некорелирани променливи

Как да коригирате хетероскедастичността

Трансформирайте целевата променлива (вземете дневника на целевата променлива)
Използвайте претеглена регресия (дава малки тегла на точки от данни, които имат по-високи отклонения)

Избор на променлива/оценка на модел

Поетапна регресия: избор назад и напред. Недостатъци на поетапното: може да пропусне оптималния модел (алчно търсене)
Избор на променлива, базиран на критерии: 1. Коригиран R² 2. AIC, BIC: избор на модел въз основа на теорията на информацията (BIC има по-голямо наказание за по-голям брой параметри) 3. Оценка извън извадката: кръстосано валидиране

Cheat Sheet за машинно обучение за интервю с специалист по данни : Линейна регресия Често задавани...

Подобни въпроси