Спасяване на животи с машинно обучение: Идентифициране на лица, изложени на риск от инсулт

Обобщение на проект:

Този проект имаше за цел да разработи модел, който да предвиди шансовете някой да получи инсулт, използвайки логистичен регресионен модел. Създадени са следните три модела:

  • Модел 1: Не е приложена техника за свръхизвадка от синтетично малцинство и връзки на Tomek (SMOTETomek) или са премахнати функции.
  • Модел 2: Приложен SMOTETomek с избрани всички независими функции.
  • Модел 3: SMOTETomek се прилага само с избрани важни характеристики (възраст, средно ниво на глюкоза и ИТМ).

Най-добрият модел беше избран въз основа на прецизност, припомняне и fi-резултат над 80%, заедно с резултат за точност на теста над 80%. Установено е, че от трите създадени модела, модел 3 е постигнал тестова точност от 80,04% и прецизност, припомняне и fi-скор по-високи от 0,8. Важно е да се отбележи, че тези резултати може да са предразположени към отклонение при вземането на проби, тъй като е извършен SMOTETomek. Въпреки че SMOTETomek помогна за подобряване на производителността на модела в малцинствения клас, това може потенциално да причини прекомерно монтиране, особено ако данните със свръхизвадка са много подобни на оригиналните данни в малцинствения клас (пациенти, които са имали инсулт). В допълнение, други алгоритми като произволна гора или KNN не бяха тествани, за да се види дали в този проект би могъл да бъде разработен по-стабилен модел с по-голяма прецизност, припомняне и fi-резултат. Някои независими характеристики в набора от данни не бяха добре свързани с характеристиката на резултата (инсулт), поради което не бяха включени в модел 3. Въпреки това, този модел все още предоставя няколко полезни начина, по които може да бъде разгърнат за подобряване на предоставянето на здравни грижи. Например, тъй като моделът е обучен на характеристики като вземане на средно ниво на глюкоза на човек, наличие на сърдечно-съдово заболяване, възраст, пол и хипертония; моделът може да се използва в комбинация с други данни от електронното медицинско досие на пациента за информиране на персонализирани планове за лечение на пациенти и ранно откриване чрез подпомагане на доставчиците на здравни услуги при идентифицирането на лица с висок риск от настъпване на инсулт, подобрявайки шансовете им за възстановяване. В допълнение, този модел може да помогне в управлението на общественото здраве, тъй като може да се използва за идентифициране на модели и тенденции в честотата на инсулт в различни популации и насочване на интервенции в общественото здравеопазване за тези специфични групи. За да видите повече за статистическия анализ, вижте хранилището на GitHub тук.

Въведение:

Инсултът е втората най-честа причина за смъртност в света и третата най-честа причина за инвалидност (1). Wajngarten & Silva, 2019 също подчертават в своето изследване, че около 90% от тежестта на инсулта се дължи на променливи рискови фактори, като около 75% се дължат на поведенчески фактори като тютюнопушене, лоша диета и ниска физическа активност. АН е мощен определящ фактор за риска от исхемичен инсулт и интракраниален кръвоизлив и има доказателства, че контролирането на нивата на АН до ‹150/90 mmHg намалява риска от инсулт (2).

Методология:

Характеристики на набора от данни:

  • Пол
  • Възраст
  • Хипертония
  • Сърдечно заболяване
  • Ever_married
  • Тип_работа
  • Residence_type
  • Средно_ниво_на_глюкоза
  • ИТМ
  • Състояние_пушене
  • Удар

Почистване на данни:

Наборът от данни не съдържаше дублирани стойности и първоначално имаше 5110 ненулеви стойности за всички функции с изключение на BMI, който имаше 4909 ненулеви стойности. Във функцията за ИТМ беше установено, че липсват 201 стойности, следователно беше извършена интерполация, за да се присвоят стойности на липсващите 201 стойности в характеристиката за ИТМ, което доведе до 5110 ненулеви стойности. След това беше проведен двумерен анализ, който показа, че възрастта, средното ниво на глюкоза и характеристиките на ИТМ имат отклонения. След консултация с експерти по темата беше заключено, че всички извънредни стойности са грешки при въвеждане на данни. По този начин всички извънредни стойности бяха премахнати от набора от данни, което доведе до 4293 ненулеви стойности за всяка характеристика в набора от данни. Това може да се види на графика 1 по-долу.

Инженерни функции:

Дисбаланс на характеристиките:

Преди процеса на избор на характеристики, класове 0 (Не) и 1 (Да) в променливата „удар“ бяха значително дисбалансирани, както се вижда на графика 2 по-долу.

За да се преодолее този дисбаланс, беше извършен SMOTETomek, за да се подобри производителността на модела чрез намаляване на вероятността моделът да бъде предубеден към класа на мнозинството и да се представи лошо на класа на малцинството. SMOTETomek беше използван за генериране на синтетични проби за малцинствения клас (1- Пациенти, прекарали инсулт), за да се балансира разпределението на класа, докато връзката Tomek премахна пробите, които е вероятно да създадат отклонения. Това от своя страна балансира разпределението на класовете във функцията Stroke, елиминирайки вероятността от наличие на небалансирани класове, при което класът на мнозинството има високо запомняне, а класът на малцинството има ниско запомняне. Това подобри цялостната производителност на модела за машинно обучение. Последната промяна, направена в характеристиките на набора от данни, беше, че всички характеристики в набора от данни бяха преобразувани в float64.

Избор на алгоритъм:

В този проект е използвана само логистична регресия.

Анализ:

Избор на функция:

По време на процеса на избор на характеристики характеристиките в набора от данни бяха разделени на X (независими характеристики) и Y (функция за резултат). След това беше проведен тест за важност на характеристиките, за да се оцени кои независими характеристики са значими при прогнозирането на характеристиката на резултата (инсулт). При оценка възрастта, средното ниво на глюкоза и ИТМ са единствените характеристики, за които е установено, че са по-големи от средната важност за всички характеристики. Това може да се види на графика 3 по-долу.

Модели на логистична регресия:

Бяха създадени следните три логистични регресионни модела:

Модел 1: Без прилагане на техника за свръхизвадка от синтетично малцинство и връзки към Томек (SMOTETomek) или премахнати функции

Модел 2: Приложен SMOTETomek с избрани всички независими функции

Модел 3: SMOTETomek се прилага с избрани само важни характеристики (възраст, средно ниво на глюкоза и ИТМ)

Дискусия:

Като се имат предвид наличните доклади, Модел 1 постига най-висок резултат за точност на тестване, но ниската му оценка и F1-резултат за положителни случаи предполагат, че той може да се затрудни при идентифицирането на лица, които има вероятност да получат инсулт. За сравнение, модели 2 и 3 показват малко по-ниски резултати за точност, но показват по-добро припомняне и F1-резултати за положителни случаи. По-специално, модел 3 използва избора на функции, за да се съсредоточи върху основните характеристики, което води до по-интерпретируем и ефективен модел.

Следователно, въз основа на наличната информация, вероятно е модел 3, който използва свръхизвадка и избор на функции, да е оптималният предиктор за шансовете някой да получи инсулт. Независимо от това, от решаващо значение е да се признае, че може да е необходима допълнителна информация и показатели за оценка, за да се стигне до по-информирано решение. Също така трябва да се отбележи, че трите модела бяха подложени на различни техники за предварителна обработка, като модел 1 не получи повторна семплиране или избор на характеристики, докато модели 2 и 3 бяха приложени свръхсемплиране, а модел 3 претърпя избор на характеристики. Въпреки че е вярно, че трите модела имат различни приложени техники за предварителна обработка, всеки модел беше оценен въз основа на неговата производителност, като се използва един и същ набор от показатели за оценка и последователна техника за валидиране. Например, всичките три модела бяха оценени с помощта на прецизност, припомняне, F1-резултат и точност, които са често използвани показатели за оценка за класификационни модели. Освен това и трите модела бяха оценени с помощта на набор от тестове, който предоставя безпристрастна оценка на тяхното представяне върху нови, невиждани данни. Освен това целта на проекта е да се идентифицира модел на логистична регресия, който може най-добре да предвиди вероятността някой да получи инсулт. Докато трите модела имат различни техники за предварителна обработка, всички те имат за цел да постигнат тази цел, което ги прави сравними.

Заключение:

Целта на този проект е да се идентифицира най-добрият логистичен регресионен модел, който прогнозира вероятността от инсулт. Модел 1 имаше най-висок резултат за точност, но по-нисък припомняне и F1-резултат за положителни случаи. Модели 2 и 3 имаха по-ниски резултати за точност, но по-добро припомняне и F1-резултат за положителни случаи. Модел 3 използва избор на функции, което потенциално води до по-интерпретируем и ефективен модел. Следователно, модел 3 с свръхизвадка и избор на характеристики вероятно е най-добрият предиктор за инсулт. Подходящите техники за предварителна обработка, оценка и валидиране са от решаващо значение за изграждането на ефективни класификационни модели. Резултатите от този анализ могат да помогнат на здравните специалисти и изследователите да идентифицират лица, които са изложени на висок риск от инсулт, и следователно да разработят по-ефективни стратегии за превенция.

Препоръки:
Този модел предоставя няколко полезни начина, по които може да бъде разгърнат за подобряване на предоставянето на здравни грижи. Тъй като моделът е обучен по характеристики като вземане на средно ниво на глюкоза на човек, наличие на сърдечно-съдово заболяване, възраст, пол и хипертония; моделът може да се използва в комбинация с други данни от електронното медицинско досие на пациента за:

  1. Информиране на персонализирани планове за лечение на пациентите и ранно откриване чрез подпомагане на доставчиците на здравни услуги при идентифицирането на лица с висок риск от появата на инсулт, подобрявайки шансовете им за възстановяване.
  2. Този модел може също така да помогне в управлението на общественото здраве, тъй като може да се използва за идентифициране на модели и тенденции в честотата на инсулт в различни популации и насочване на интервенции в общественото здравеопазване за тези специфични групи.

За да видите повече за този анализ, вижте моето хранилище на GitHub тук.

Лицензиране, автори и благодарности

Трябва да отдам дължимото на Kaggle за данните. Можете да намерите Лицензирането за данните и друга описателна информация на връзката Kaggle, достъпна тук.

Препратки:

  1. Wajngarten M, Silva GS. Хипертония и инсулт: Актуална информация за лечението. European Cardiology Review [Интернет]. 11 юли 2019 г.; 14 (2). Достъпно от: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6659031/
  2. Dev S, Wang H, Nwosu CS, Jain N, Veeravalli B, John D. Подход за прогнозен анализ за прогнозиране на инсулт с помощта на машинно обучение и невронни мрежи. Здравен анализ [Интернет]. 2022 февруари;100032. Достъпно от: https://www.sciencedirect.com/science/article/pii/S2772442522000090