Защо студентите Econ могат да се справят добре в магистърски програми по анализ на данни и наука за данни

Тази статия говори от личен опит като човек с бакалавърска степен по икономика от Калифорнийския университет в Ървайн, който е на един семестър от завършване на (дистанционна/онлайн) магистърска степен по инженерство за анализ на данни от университета Джордж Мейсън.

Всички студенти по икономика (поне в Съединените щати) трябва да преминат курс с продължителност поне една четвърт или семестър на по-горно ниво по предмет, наречен Иконометрия. Иконометрията се състои от специфични статистически инструменти, използвани от икономистите за моделиране на икономически явления, почти всички от които са регресионни техники, но някои почти винаги включват и два метода за класификация, а именно Logit (съкращението, което икономистите използват за логистична регресия) и Probit ( което очевидно е излязло от мода сред приложните статистици още от 70-те години на миналия век, поради което този подход обикновено не се обхваща в курсовете по машинно обучение).

През десетилетията икономистите и иконометристите са станали доста напреднали сред някои подспециалности в рамките на регресионния анализ. Както е обяснено в тази публикация в блога, написана от професионален приложен статистик, нивото на усъвършенстване на регресионните техники, обхванати в стандартните курсове по иконометрия за студенти, понякога може да бъде доста напреднало. Всички тези подробности обаче са извън обхвата на тази статия.

Открих това в моя опит в два от най-важните теоретични курсове в моята магистърска програма по анализ на данни; а именно курс по въвеждащо статистическо обучение и друг по приложен прогнозен анализ в по-широк план, нивото на математическа строгост, необходимо за разбиране на материала, всъщност беше по-ниско, отколкото в двата курса по приложна иконометрия, които взех в UC Irvine.

Например основни неща като предположенията, лежащи в основата на регресионната оценка на OLS, и по-напреднали неща като предположенията на Гаус-Марков не бяха обхванати в учебниците, използвани за тези 2 гореспоменати курса в GMU (техните учебници бяха съответно „това“ и „това“). Освен това не са обхванати никакви методи за коригиране на стандартната рамка за многовариантен регресионен анализ, базирана на OLS, за нови ситуации и контексти на данни, като панелни данни, времеви серии, регресия на инструментални променливи, разлики в разликите, едновременни уравнения или привидно несвързани регресии .

Сега има много напълно различни типове подходи и алгоритми за моделиране на статистическо/машинно обучение, които не приличат на нищо, което икономистите използват или всеки с бакалавърска степен по икономика също знае. Но това е очевидно, в противен случай машинното обучение не би било ново поле. Но има огромно припокриване между двете, което често може да бъде малко трудно да се забележи в началото. Защо е това? Първо, терминологията е напълно различна. Второ и трето, крайните цели и философии, залегнали в основата на двата различни подхода (машинно обучение срещу иконометрия) също са напълно различни.

Най-важната и фундаментална разлика между двете е това, което се опитва да се постигне, икономистът обикновено се опитва да оцени реалния причинно-следствен ефект от някаква промяна в обществената политика, например промяна в законовата минимална заплата. Това може да бъде представено чрез фиктивна променлива MW и този ефект се оценява чрез регресия, използваща MW като независима променлива заедно с други контролни променливи, включени, за да се изолира или идентифицира истинският му ефект. Това е в ярък договор в сравнение с типичната цел за използване на методи за машинно обучение.

В повечето случаи алгоритмите и методите за машинно или статистическо обучение се използват в приложения за случайно агностично прогнозиране, където вместо да се фокусира върху получаването на правилната оценка на определен коефициент (напр. върху фиктивната променлива MW), фокусът е върху получаването на правилната оценка прогноза за зависимата променлива Y и кои конкретни независими променливи вашият окончателен модел случайно включва измежду всички първоначални кандидати IV е до голяма степен без значение и изводите за това кои такива предиктори са наистина важни са много по-трудни за правене.

Защо студентите Econ могат да се справят добре в магистърски програми по анализ на данни и наука за данни

Подобни въпроси