Ето обобщение на често срещаните въпроси за машинното обучение, задавани по време на интервю със специалист по данни. Поддържах измамника възможно най-сбит. Цялото съдържание е ключово знание, което трябва да се помни. Надяваме се, че може да ви послужи като ръководство за подготовка преди вашето интервю за DS!
Две основни цели в регресионен проблем
- Правете прогнози
- Идентифицирайте въздействието на обяснителните променливи върху целевата променлива
Два типа тестове на хипотези за оценката на параметъра
- t-тест: тест на хипотеза за един параметър, t-статистиката се изчислява като оценката на параметъра, разделена на стандартната грешка на оценката на параметъра
- F-тест: тествайте пълния модел в сравнение с отпадането на един параметър в модела
Предположения за линейна регресия:
1. Линейна връзка между целевата променлива и обяснителните променливи
2. Хомоскедастизъм
3. Независимост
4. Очакваната стойност на остатъците е 0.
5. Нормалност
6. Липса или малка мултиколинеарност.
Ако нарушавате предположенията:
- Хомоскедастичност: не може да оцени променливостта на оценките на параметрите
- Очакваната стойност на остатъците е 0: не може да има безпристрастна оценка
- Нормалност: не може да прави изводи по параметри, като например тестване на хипотези и изчисляване на доверителни интервали
Проверка на предположенията (регресионна диагностика):
1. Анализ на остатъците
- Хетероскедастичност: Начертайте остатъците спрямо монтираните стойности, за да проверите дали разпространението на остатъците се увеличава с увеличаването на монтираната стойност.
- Нормалност: QQ-график
2. Линейност:
- Точкова диаграма, за да проверите дали връзката между x и y е линейна
3. Мултиколинеарност
- Фактор на инфлация на дисперсията (VIF)
- Корелационна матрица между променливите
4. Независимост
- ACF диаграма (проверете автокорелацията)
Проблеми в мултиколинеарността
- Дисперсията на параметрите има тенденция да се увеличава драстично (но не отклонява оценката на коефициента)
- Оценката на параметрите става много чувствителна към малки промени в данните, понякога дори знакът на параметъра ще се промени
Мултиколинеарността не засяга прогнозирането, но влияе върху интерпретируемостта.
- Ако нашата цел е да направим чисто прогнозиране, мултиколинеарността е приемлива.
- Ако нашата цел е да открием връзката между целевата променлива и обяснителната променлива, да интерпретираме резултатите, мултиколинеарността е проблем.
Как да се справим с мултиколинеарността
- Премахнете някои от силно корелираните променливи
- Направете анализ на главните компоненти: създайте некорелирани променливи
Как да коригирате хетероскедастичността
- Трансформирайте целевата променлива (вземете дневника на целевата променлива)
- Използвайте претеглена регресия (дава малки тегла на точки от данни, които имат по-високи отклонения)
Избор на променлива/оценка на модел
- Поетапна регресия: избор назад и напред. Недостатъци на поетапното: може да пропусне оптималния модел (алчно търсене)
- Избор на променлива, базиран на критерии: 1. Коригиран R² 2. AIC, BIC: избор на модел въз основа на теорията на информацията (BIC има по-голямо наказание за по-голям брой параметри) 3. Оценка извън извадката: кръстосано валидиране