Спасение жизней с помощью машинного обучения: выявление лиц, подверженных риску инсульта

Резюме проекта:

Этот проект был направлен на разработку модели, которая предсказывала бы вероятность инсульта с использованием модели логистической регрессии. Были созданы следующие три модели:

  • Модель 1: без использования синтетического метода избыточной выборки меньшинств и ссылок Tomek (SMOTETomek) или удаления функций.
  • Модель 2: SMOTETomek применяется со всеми выбранными независимыми функциями.
  • Модель 3: SMOTETomek применяется с выбранными только важными характеристиками (возраст, средний уровень глюкозы и ИМТ).

Лучшая модель была выбрана на основе точности, отзыва и оценки fi более 80%, а также оценки точности теста более 80%. Было обнаружено, что из трех созданных моделей модель 3 достигла тестовой точности 80,04%, а точность, полнота и точность выше 0,8. Важно отметить, что эти результаты могут быть подвержены систематической ошибке выборки, так как был выполнен SMOTETomek. Хотя SMOTETomek помог улучшить производительность модели в классе меньшинства, это потенциально может привести к переобучению, особенно если данные передискретизации были очень похожи на исходные данные в классе меньшинства (пациенты, перенесшие инсульт). Кроме того, другие алгоритмы, такие как случайный лес или KNN, не тестировались, чтобы увидеть, можно ли в этом проекте разработать более надежную модель с большей точностью, отзывом и оценкой fi. Некоторые независимые функции в наборе данных плохо коррелировали с характеристикой исхода (инсульт), поэтому они не были включены в модель 3. Тем не менее, эта модель по-прежнему предлагает несколько полезных способов, которыми ее можно использовать для улучшения оказания медицинской помощи. Например, поскольку модель была обучена таким характеристикам, как средний уровень глюкозы у человека, наличие сердечно-сосудистых заболеваний, возраст, пол и гипертония; модель может использоваться в сочетании с другими данными из электронной медицинской карты пациента для составления индивидуальных планов лечения пациентов и раннего выявления, помогая медицинским работникам выявлять лиц с высоким риском возникновения инсульта, повышая их шансы на выздоровление. Кроме того, эта модель может помочь в управлении общественным здравоохранением, поскольку ее можно использовать для выявления моделей и тенденций заболеваемости инсультом в различных группах населения и целенаправленных вмешательств общественного здравоохранения для этих конкретных групп. Чтобы узнать больше о статистическом анализе, см. репозиторий GitHub здесь.

Введение:

Инсульт является второй по распространенности причиной смертности во всем мире и третьей по частоте причиной инвалидности (1). Wajngarten & Silva, 2019, также подчеркнули в своем исследовании, что около 90% бремени инсульта связано с модифицируемыми факторами риска, причем около 75% связано с поведенческими факторами, такими как курение, неправильное питание и низкая физическая активность. АД является мощным фактором, определяющим риск ишемического инсульта и внутричерепного кровоизлияния, и есть доказательства того, что контроль уровня АД на уровне ‹150/90 мм рт. ст. снижает риск инсульта (2).

Методология:

Функции набора данных:

  • Пол
  • Возраст
  • Гипертония
  • Сердечное заболевание
  • Ever_married
  • Work_type
  • Residence_type
  • Средний_уровень_глюкозы
  • ИМТ
  • Smoking_status
  • Гладить

Очистка данных:

Набор данных не содержал повторяющихся значений и изначально имел 5110 ненулевых значений для всех признаков, кроме ИМТ, у которого было 4909 ненулевых значений. В функции ИМТ было обнаружено, что 201 значение отсутствует, поэтому была выполнена интерполяция для присвоения значений отсутствующим 201 значению в функции ИМТ, в результате чего было 5110 ненулевых значений. После этого был проведен двумерный анализ, который показал, что возраст, средний уровень глюкозы и характеристики ИМТ имеют выбросы. После консультаций с экспертами в предметной области был сделан вывод, что все выбросы были ошибками ввода данных. Таким образом, все выбросы были удалены из набора данных, в результате чего для каждого признака в наборе данных осталось 4293 ненулевых значения. Это видно на графике 1 ниже.

Разработка функций:

Несбалансированность функций:

До процесса выбора признаков классы 0 (Нет) и 1 (Да) в переменной «ход» были значительно несбалансированы, как показано на графике 2 ниже.

Чтобы устранить этот дисбаланс, был выполнен SMOTETomek для улучшения производительности модели за счет снижения вероятности того, что модель будет смещена в сторону класса большинства и плохо работает с классом меньшинства. SMOTETomek использовался для создания синтетических выборок для класса меньшинства (1 — пациенты, перенесшие инсульт), чтобы сбалансировать распределение классов, в то время как ссылка Tomek удаляла выборки, которые могли создать выбросы. Это, в свою очередь, сбалансировало распределение классов в функции Stroke, устраняя вероятность наличия несбалансированных классов, в результате чего класс большинства имеет высокий отзыв, а класс меньшинства имеет низкий отзыв. Это улучшило общую производительность модели машинного обучения. Последнее изменение, внесенное в функции набора данных, заключалось в том, что все функции в наборе данных были преобразованы в float64.

Выбор алгоритма:

В этом проекте использовалась только логистическая регрессия.

Анализ:

Выбор функций:

В процессе выбора функций функции в наборе данных были разделены на X (независимые функции) и Y (результат). После этого был проведен тест важности признаков, чтобы оценить, какие независимые признаки были значимы для прогнозирования признака исхода (инсульта). При оценке возраст, средний уровень глюкозы и ИМТ были единственными признаками, которые превышали среднее значение всех признаков. Это видно на графике 3 ниже.

Модели логистической регрессии:

Были созданы следующие три модели логистической регрессии:

Модель 1: без применения синтетического метода избыточной выборки меньшинств и ссылок Tomek (SMOTETomek) или удаления функций

Модель 2: SMOTEtomek применяется со всеми выбранными независимыми функциями

Модель 3: применение SMOTEtomek с выбором только важных характеристик (возраст, средний уровень глюкозы и ИМТ)

Обсуждение:

Учитывая доступные отчеты, Модель 1 достигает наивысшей оценки точности тестирования, но ее низкая полнота и оценка F1 для положительных случаев предполагают, что она может испытывать затруднения при выявлении людей, у которых может быть инсульт. Для сравнения, модели 2 и 3 демонстрируют несколько более низкие показатели точности, но демонстрируют лучший отзыв и F1-показатели для положительных случаев. Примечательно, что Модель 3 использует выбор функций, чтобы сосредоточиться на основных функциях, что приводит к более интерпретируемой и эффективной модели.

Следовательно, исходя из имеющейся информации, вполне вероятно, что Модель 3, в которой используется избыточная выборка и выбор признаков, является оптимальным предиктором вероятности того, что у кого-то будет инсульт. Тем не менее, важно признать, что для принятия более обоснованного решения может потребоваться дополнительная информация и показатели оценки. Кроме того, следует отметить, что три модели подвергались различным методам предварительной обработки: модель 1 не подвергалась повторной выборке или выбору признаков, в то время как модели 2 и 3 применяли передискретизацию, а модель 3 подвергалась выбору признаков. Хотя верно то, что к трем моделям применяются разные методы предварительной обработки, каждая модель оценивалась на основе ее производительности с использованием одного и того же набора показателей оценки и согласованной методики проверки. Например, все три модели были оценены с использованием точности, полноты, F1-показателя и точности, которые обычно используются для оценки моделей классификации. Кроме того, все три модели были оценены с использованием тестового набора, который обеспечивает непредвзятую оценку их производительности на новых, неизвестных данных. Кроме того, целью проекта является определение модели логистической регрессии, которая может наилучшим образом предсказать вероятность инсульта. Хотя три модели имеют разные методы предварительной обработки, все они направлены на достижение этой цели, что делает их сопоставимыми.

Заключение:

Целью этого проекта является определение наилучшей модели логистической регрессии, которая предсказывает вероятность инсульта. Модель 1 имела самый высокий показатель точности, но более низкий отзыв и показатель F1 для положительных случаев. Модели 2 и 3 имели более низкие показатели точности, но лучше отзыв и показатель F1 для положительных случаев. Модель 3 использовала выбор признаков, что потенциально могло привести к более интерпретируемой и эффективной модели. Следовательно, Модель 3 с передискретизацией и выбором признаков, вероятно, является лучшим предиктором инсульта. Соответствующие методы предварительной обработки, оценки и проверки имеют решающее значение для построения эффективных моделей классификации. Результаты этого анализа могут помочь медицинским работникам и исследователям выявить лиц с высоким риском инсульта и, следовательно, разработать более эффективные стратегии профилактики.

Рекомендации.
Эта модель предлагает несколько полезных способов развертывания для повышения качества оказания медицинской помощи. Поскольку модель была обучена таким характеристикам, как средний уровень глюкозы у человека, наличие сердечно-сосудистых заболеваний, возраст, пол и гипертония; модель может использоваться в сочетании с другими данными из электронной медицинской карты пациента для:

  1. Информируйте пациентов о персонализированных планах лечения и раннем выявлении, помогая медицинским работникам выявлять лиц с высоким риском возникновения инсульта, повышая их шансы на выздоровление.
  2. Эта модель также может помочь в управлении общественным здравоохранением, поскольку ее можно использовать для выявления моделей и тенденций заболеваемости инсультом в различных группах населения и целенаправленных вмешательств общественного здравоохранения для этих конкретных групп.

Чтобы узнать больше об этом анализе, см. мой репозиторий GitHub здесь.

Лицензирование, авторы и благодарность

Должен отдать должное Kaggle за данные. Вы можете найти Лицензирование для данных и другую описательную информацию по ссылке Kaggle, доступной здесь.

Использованная литература:

  1. Вайнгартен М., Сильва Г.С. Гипертония и инсульт: обновленная информация о лечении. Европейский кардиологический обзор [Интернет]. 2019 11 июля; 14 (2). Доступно по адресу: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6659031/
  2. Dev S, Wang H, Nwosu CS, Jain N, Veeravalli B, John D. Подход к прогнозной аналитике для прогнозирования инсульта с использованием машинного обучения и нейронных сетей. Healthcare Analytics [Интернет]. 2022 фев;100032. Доступно по адресу: https://www.sciencedirect.com/science/article/pii/S2772442522000090