Тази статия е написана от Алпарслан Месри и Хейл Кизилдуман.

В края на 2009 г. и началото на 2010 г. в САЩ бяха проведени телефонни проучвания за грип H1N1. В това проучване, освен социалните, икономическите и демографските въпроси, респондентите бяха попитани дали имат ваксина H1N1 или ваксина срещу сезонен грип. С тази информация се цели да се предвиди дали тези хора имат ваксини срещу H1N1 и сезонен грип.
Това проучване е предварителна подготовка за бъдещи проучвания. Като метод са използвани 5 класификационни алгоритма. Това са съответно; Random Forest, XGBoost, Gradient Descent, Logistic Regression и KNN. За всеки метод бяха избрани 3 независими променливи с най-висока корелация и в края на изследването беше дадена сравнителна таблица, показваща успеха на моделите.

Проучването и наборът от данни могат да бъдат достъпни „тук“.

Първо се импортират необходимите библиотеки.

След това се зареждат csv файловете. Съдържанието на таблицата df1 е същото като в следващите таблици.

В набора от данни има няколко независими променливи.

След това се разглежда променливата df2, която съдържа независимите променливи. В този проблем се очаква колоните h1n1_vaccine и seasonal_vaccine да бъдат оценени.

В следващата стъпка беше проверено колко липсващи данни в колоните.

С функцията Describe се прави бърз поглед върху свойствата на всяка колона.

Зависимите и независимите променливи се комбинират в променливата united_df, за да се видят корелациите между колоните.

При изследване на корелационната топлинна карта, колоните, които най-много корелират с първата целева променлива h1n1_vaccine, са както следва:

#doctor_recc_h1n1: 0,39
#opinion_h1n1_risk: 0,32
#opinion_h1n1_vacc_effective: 0,27
#opinion_seas_risk: 0,26
#health_insurance: 0,22
#doctor_recc_seasonal: 0. 21

Колоните, които най-много корелират с втората целева променлива, колоната за сезонна_ваксина, са както следва:

#opinion_seas_risk: 0,39
#doctor_recc_seasonal: 0,37
#opinion_seas_vacc_effective: 0,36
#opinion_h1n1_risk: 0,22
#opinion_h1n1_vacc_effective: 0,21
#doctor_recc_h1 n1: 0.2
#здравно_осигуряване : 0,2

В допълнение към тези силно корелирани променливи, има и висока корелация между променливите h1n1_vaccine и seasonal_vaccine. Въпреки това, тъй като зависимите променливи не могат да се използват в процеса на оценка, корелациите на тези колони се пренебрегват.

В кодовия блок по-долу зависимите променливи се копират в променливата y. След това променливите df1 и y бяха разделени 66% / 33% като данни за обучение и валидиране. След този процес стойностите, които са nan в променливите x_train и x_val, се попълват като средни.

В следващата стъпка x_train1 се създава за предсказване на първата целева променлива колона h1n1_vaccine, докато x_train2 се създава за предсказване на втората целева променлива seasonal_vaccine. Към тези променливи бяха добавени само 3 променливи, които бяха най-корелирани с целевите променливи в променливата df1.

Променливите, необходими за таблицата за сравнение, се създават и добавят към следващия кодов блок.

Бяха извикани и стартирани 5 алгоритма за машинно обучение за h1n1_vaccine. Резултатите за точност на моделите се добавят към променливата h1n1_accuracy с функцията за добавяне.

Бяха извикани и стартирани 5 алгоритма за машинно обучение за seasonal_vaccine. Резултатите за точност на моделите се добавят към променливата seasonal_accuracy с функцията за добавяне.

Променливата Model_accuracy_scores се прави в рамка с данни и след това се извиква тази рамка с данни.

Резултатите са както следва:

Докато алгоритъмът XGboost оцени целевата променлива h1n1_accuracy с резултат за точност от 0,824030, най-добрият начин в сравнение с други алгоритми, алгоритъмът KNN показа най-слабото представяне с резултат за точност от 0,814613. В Seasonal_accuracy, Random forest показа най-добра производителност с резултат за точност от 0,745859, докато KNN показа най-слабото представяне в тази област с резултат за точност от 0,740186. Когато разглеждаме показателя за точност, има много малка разлика в резултатите между алгоритмите.

Тази статия е подготвена, за да се постигне бързо решение относно прогнозата за ваксинация. Това е първата стъпка от по-цялостно проучване. В бъдещи проучвания могат да се използват различни показатели, различни техники за избор на независими променливи, оптимизиране на параметрите на модела и техники за подреждане.

ресурси: