Ето обобщение на често срещаните въпроси за машинното обучение, задавани по време на интервю със специалист по данни. Поддържах измамника възможно най-сбит. Цялото съдържание е ключово знание, което трябва да се помни. Надяваме се, че може да ви послужи като ръководство за подготовка преди вашето интервю за DS!

Две основни цели в регресионен проблем

  • Правете прогнози
  • Идентифицирайте въздействието на обяснителните променливи върху целевата променлива

Два типа тестове на хипотези за оценката на параметъра

  • t-тест: тест на хипотеза за един параметър, t-статистиката се изчислява като оценката на параметъра, разделена на стандартната грешка на оценката на параметъра
  • F-тест: тествайте пълния модел в сравнение с отпадането на един параметър в модела

Предположения за линейна регресия:

1. Линейна връзка между целевата променлива и обяснителните променливи

2. Хомоскедастизъм

3. Независимост

4. Очакваната стойност на остатъците е 0.

5. Нормалност

6. Липса или малка мултиколинеарност.

Ако нарушавате предположенията:

  • Хомоскедастичност: не може да оцени променливостта на оценките на параметрите
  • Очакваната стойност на остатъците е 0: не може да има безпристрастна оценка
  • Нормалност: не може да прави изводи по параметри, като например тестване на хипотези и изчисляване на доверителни интервали

Проверка на предположенията (регресионна диагностика):

1. Анализ на остатъците

  • Хетероскедастичност: Начертайте остатъците спрямо монтираните стойности, за да проверите дали разпространението на остатъците се увеличава с увеличаването на монтираната стойност.
  • Нормалност: QQ-график

2. Линейност:

  • Точкова диаграма, за да проверите дали връзката между x и y е линейна

3. Мултиколинеарност

  • Фактор на инфлация на дисперсията (VIF)
  • Корелационна матрица между променливите

4. Независимост

  • ACF диаграма (проверете автокорелацията)

Проблеми в мултиколинеарността

  • Дисперсията на параметрите има тенденция да се увеличава драстично (но не отклонява оценката на коефициента)
  • Оценката на параметрите става много чувствителна към малки промени в данните, понякога дори знакът на параметъра ще се промени

Мултиколинеарността не засяга прогнозирането, но влияе върху интерпретируемостта.

  • Ако нашата цел е да направим чисто прогнозиране, мултиколинеарността е приемлива.
  • Ако нашата цел е да открием връзката между целевата променлива и обяснителната променлива, да интерпретираме резултатите, мултиколинеарността е проблем.

Как да се справим с мултиколинеарността

  • Премахнете някои от силно корелираните променливи
  • Направете анализ на главните компоненти: създайте некорелирани променливи

Как да коригирате хетероскедастичността

  • Трансформирайте целевата променлива (вземете дневника на целевата променлива)
  • Използвайте претеглена регресия (дава малки тегла на точки от данни, които имат по-високи отклонения)

Избор на променлива/оценка на модел

  • Поетапна регресия: избор назад и напред. Недостатъци на поетапното: може да пропусне оптималния модел (алчно търсене)
  • Избор на променлива, базиран на критерии: 1. Коригиран R² 2. AIC, BIC: избор на модел въз основа на теорията на информацията (BIC има по-голямо наказание за по-голям брой параметри) 3. Оценка извън извадката: кръстосано валидиране