пример использования больших данных

Потребность в решениях для больших данных

Введение в большие данные в сфере здравоохранения

В последние годы использование технологии больших данных использовалось для решения проблемы роста данных в нескольких промышленных секторах. Согласно Ambigavathi and Sridharan (2018), большие данные — это большие объемы данных, которые можно быстро генерировать, собирать и обрабатывать с высокой скоростью, и которые нельзя классифицировать как обычную реляционную базу данных. При ее реализации большие данные широко использовались в финансах, образовании, розничной торговле, электронной коммерции и других отраслях, в том числе в сфере здравоохранения. В сфере здравоохранения внедрение технологии больших данных позволяет отрасли здравоохранения хранить большой объем данных о пациентах в цифровом виде. Использование больших данных позволяет отрасли здравоохранения проводить вычислительный анализ для выявления закономерностей, тенденций, ассоциаций и различий заболеваний (Haleem et al., 2020). Медицинские данные, такие как имя пациента, адрес, состояние, текущий прогноз, рентгеновские снимки, компьютерная томография или МРТ, требуют более глубокого анализа, чтобы отрасль здравоохранения могла лучше понять состояние пациента. картина от текущих заболеваний.

Внедрение технологий больших данных в секторе здравоохранения оказывает существенное положительное влияние, и эта технология позволяет отрасли здравоохранения еще больше спасать жизни. Исследование Corsi et al. (2020) упоминается, что внедрение технологий больших данных позволяет отрасли здравоохранения прогнозировать важную информацию, такую ​​как продолжительность пребывания пациента в больнице, общее количество пациентов, нуждающихся в хирургическом вмешательстве, или предотвращать осложнения, которые могут возникнуть у пациента. . Другое исследование Hussain et al. (2020) упоминается, что внедрение больших данных в отрасли здравоохранения может повысить удовлетворенность пациентов, избежать ошибок в медицинских учреждениях, предсказать характер и результаты заболеваний, улучшить медицинское обслуживание пациентов, помочь политикам или правительствам сократить медицинские расходы и решить медицинские проблемы. Кроме того, Ambigavathi and Sridharan (2018) заявили, что внедрение больших данных дает некоторые преимущества, которые могут помочь развитию отрасли здравоохранения, например, улучшить отслеживание состояния здоровья пациентов, уменьшить и избежать человеческих ошибок, сократить ненужные расходы на заработную плату и обеспечить лучшее понимание заболеванием или пациентами с хроническими заболеваниями.

В этой статье будет обсуждаться важность больших данных в секторе здравоохранения, особенно в связи с недавней болезнью COVID-19. В этой статье также будут обсуждаться типы и характеристики больших данных, а также обсуждаются типы и характеристики больших данных, которые подходят для борьбы с пандемией COVID-19. Кроме того, в этой статье будут предложены пять методов или методов, которые можно использовать для использования больших данных для борьбы с болезнью COVID-19.

Важность больших данных для COVID-19

В последнее время число новых случаев заболевания COVID-19 (коронавирус) стремительно растет во всем мире с угрожающей скоростью. Быстрое распространение вируса COVID-19, меняющиеся модели и различия в его симптомах затрудняют контроль и анализ. В этом случае 20 000 человек умерли из-за вируса COVID-19, и у каждого из них были разные симптомы, разное состояние здоровья и разные прогнозы смерти от вируса COVID-19. Кроме того, врачи и медицинский персонал записали симптомы, дав оценку каждому симптому. Из этого случая видно, что экспоненциальный рост данных о COVID-19 затрудняет анализ данных пациентов, пораженных вирусом COVID-19, у врачей и медицинского персонала.

Более того, огромное количество генерируемых данных затрудняет для врачей и медицинского персонала определение симптомов, наиболее часто встречающихся у пациентов с COVID-19. Это использование технологии больших данных сыграло свою роль в оказании помощи врачам и медицинскому персоналу в анализе текущего вируса COVID-19. Как указывалось в предыдущем разделе, технология больших данных позволяет медицинскому персоналу проводить вычислительный анализ для выявления закономерностей COVID-19, наиболее распространенных симптомов, корреляции и прогнозирования распространения COVID-19. Кроме того, внедрение технологий больших данных в здравоохранение позволяет правительству сократить ненужные расходы. В следующем разделе автор обсудит типы больших данных и их характеристики, связанные с этим примером.

Типы данных и характеристики больших данных и их связь с COVID-19

Согласно Рамиресу и соавт. (2018) и Corsi et al. (2020), в больших данных данные можно разделить на три типа: структурированные, полуструктурированные и неструктурированные данные.

  • Структурированные данные — это тип данных с определенным форматом или структурой, которые можно хранить в формате таблицы. Преимущества структурированных данных заключаются в согласованности данных, наличии определенных стандартов и возможности обработки с помощью SQL-запросов.
  • Полуструктурированные данные — это сочетание структурированных и неструктурированных данных, которые хранятся вместе с тегами, указывающими тип данных и другие характеристики.
  • Неструктурированные данные — это данные, сохраняемые при сборе данных без определенного формата. Этот тип данных не может храниться в табличных форматах и ​​требует сложной обработки перед использованием для анализа.

Согласно Sonnati (2015) и Kumar and Singh (2019), существуют четыре характеристики больших данных: объем, скорость, разнообразие и достоверность (часто называемые четырьмя V).

  • Объем: означает количество данных, производимых ИТ-инфраструктурой в секторе здравоохранения, которое продолжает расти. Этот рост связан с тем, что данные, хранящиеся в базе данных здравоохранения (такие как изображения компьютерной томографии, история болезни или данные о транзакциях), постоянно растут с каждым днем.
  • Скорость: относится к скорости сбора данных. В области здравоохранения системы здравоохранения генерируют данные с возрастающей скоростью.
  • Разнообразие: означает разнообразие полученных данных. В области здравоохранения это могут быть структурированные или неструктурированные данные. Примерами структурированных данных являются записи транзакций, медицинские записи пациентов или клинические данные. Примерами неструктурированных данных являются медицинские изображения, аудио, видео или данные датчиков.
  • Достоверность: относится к уязвимости с точки зрения ее точности и эффективности. В результате анализ больших данных, особенно в сфере здравоохранения, необходим для извлечения ценных сведений из этих данных для лечения пациентов и принятия наилучших решений.

Утверждается, что 20 000 человек умерли из-за воздействия COVID-19. Из 20 000 человек, которые умерли, у них было различное состояние здоровья и специфические симптомы, такие как одышка, лихорадка, сухой кашель, скопление мокроты в легких, острая пневмония, высокое кровяное давление, высокий уровень глюкозы в крови, колебания, коронарная недостаточность и низкая уровень кислорода в крови. Кроме того, каждый симптом оценивается из 5 звезд. Из этого случая можно сделать вывод, что тип больших данных, которые можно использовать для борьбы с этим случаем COVID-19, — это структурированные большие данные. Причина использования этого типа больших данных заключается в том, что хранимые данные имеют фиксированную структуру и стандарты для хранения данных пациентов и симптомов, испытываемых этими пациентами, на основе заранее определенного уровня. Медицинский персонал может использовать этот тип больших данных для хранения идентификатора пациента, имени пациента, адреса, пола, возраста, симптомов, присваивая 5-звездочный балл каждому симптому и прогнозу смерти.

Согласно Р.К. (2020) и Talend (2021), есть и другие преимущества использования структурированных больших данных. Преимущество заключается в том, что алгоритмы машинного обучения могут легко использовать структурированные большие данные для прогнозирования тенденций или скрытой информации, упрощают организации анализ данных с меньшим объемом обработки и хранения, а также доступны дополнительные инструменты для анализа структурированных больших данных. Эти преимущества могут помочь медицинскому персоналу использовать алгоритмы машинного обучения или другие инструменты, связанные с анализом наиболее распространенных симптомов COVID-19, прогнозированием распространения COVID-19 и прогнозом смерти на основе симптомов. Однако Р.К. (2020) и Talend (2021) также указали на недостатки использования структурированных больших данных. Недостатком является ограниченное использование, поскольку данные уже имеют заранее определенный стандарт, и если записи необходимо отредактировать, все структурированные данные в больших данных должны быть обновлены. Если в будущем появятся другие симптомы или подробная информация о пациенте, эти недостатки могут стать большой проблемой для медицинского персонала.

Кроме того, в этом случае объем, скорость и достоверность являются наиболее важными характеристиками больших данных. Объем становится наиболее заметной характеристикой, потому что он позволяет собирать данные о смертях от COVID-19 в будущем. Скорость позволяет медицинскому персоналу быстро извлекать данные, поскольку полученные данные уже соответствуют стандартам, а медицинскому персоналу нужно только следовать ранее установленным стандартам. В то же время правдивость является другой наиболее важной характеристикой, поскольку точность данных о пациентах, предоставляемых медицинским персоналом, не обязательно имеет высокую точность. В результате необходимо провести более глубокий анализ, чтобы получить представление о данных COVID-19 для дальнейших исследований и изучения.

Взгляд на большие данные

Техники и методы анализа больших данных

В предыдущем разделе обсуждалась важность больших данных в сфере здравоохранения, особенно в борьбе с пандемией COVID-19. Кроме того, автор также обсудил характеристики и типы больших данных, которые могут быть реализованы для этого тематического исследования. В этом разделе автор обсудит пять методов или приемов использования технологии больших данных, чтобы помочь врачам или медицинскому персоналу. Автор обсудит эти пять методов или методов: искусственный интеллект, машинное обучение, усвоение данных, глубокое обучение и географическая информационная система.

1. Искусственный интеллект

Искусственный интеллект как инструмент сбора и анализа данных для прогнозирования заболевания внедряется в последние несколько лет. Согласно Bragazzi et al. (2020) они предложили программное обеспечение с использованием искусственного интеллекта, которое может различать данные о звуке кашля при обнаружении заболевания COVID-19 в зависимости от пола, возраста и симптомов. Благодаря этому исследованию, когда COVID-19 дал положительный результат, он достиг 82% площади под кривой (AUC).

Исходя из приведенного выше исследования, искусственный интеллект также может быть реализован в рассмотренном ранее тематическом исследовании. Искусственный интеллект может помочь в сборе данных о пациентах, обнаружении и оценке симптомов пациентов, таких как измерение уровня сахара в крови, уровня кислорода, температуры тела и т. д. Таким образом, медицинский персонал может быстро проанализировать, есть ли у кого-то COVID-19, на основе данных, собранных искусственными интеллект.

2. Машинное обучение

По данным Алсунаиди и соавт. (2021), использование машинного обучения может повысить точность выявления COVID-19 за счет выявления новых моделей, симптомов и течения заболевания и прогнозирования развития вспышек COVID-19, а также позволяет выявить факторы риска, связанные с заболеванием, путем использования технологии больших данных. Кроме того, правительство и министерство здравоохранения могут использовать машинное обучение для описания аспектов эпидемии COVID-19 и ее раннего прогнозирования, чтобы подготовить медицинскую инфраструктуру к преодолению последствий пандемии. Эта технология также помогает формулировать стратегии и упреждающие меры и принимать решения, связанные с распределением медицинских ресурсов.

Из приведенного выше исследования видно, что использование машинного обучения на основе больших данных может помочь медицинскому персоналу и врачам анализировать и прогнозировать воздействие COVID-19 в ранее упомянутых случаях. Кроме того, использование машинного обучения в этом случае также может повысить точность прогнозирования при исследовании сопутствующих заболеваний за счет использования 20 000 доступных данных.

3. Усвоение данных

В исследовании Li et al. (2020), использование ассимиляции данных и больших данных может прогнозировать распространение болезни COVID-19 и обеспечивать профилактические меры. Этого можно добиться, комбинируя методы усвоения данных, такие как модель «Подверженность заражению-выздоровление» (SEIR) или модель «Подвержено-инфекционному-удалению» (SIR) с данными наблюдения в реальном времени и установкой параметров на основе данных в реальном времени.

С помощью приведенного выше исследования ассимиляция данных может быть применена к упомянутому ранее учебному случаю. Используя методы усвоения данных, медицинский персонал может прогнозировать распространение COVID-19 на основе собранных данных о 20 000 пациентов и предпринимать дальнейшие действия по предотвращению заболеваний COVID-19.

4. Глубокое обучение

Согласно исследованию Pham (2021), глубокое обучение может помочь медицинскому персоналу определить, есть ли у человека COVID-19. Модели глубокого обучения, такие как Bayes-SqueezeNet, могут классифицировать результаты рентгеновского сканирования пациентов, независимо от того, является ли состояние пациента нормальным, вирусной пневмонией или COVID-19. Кроме того, глубокое обучение также может сократить необходимое время проверки по сравнению со временем проверки, необходимым для ПЦР-тестирования.

Согласно приведенному выше исследованию, глубокое обучение может помочь ускорить сбор данных и классифицировать симптомы, от которых страдают ранее упомянутые случаи. Глубокое обучение может помочь проанализировать количество мокроты, собранной в легких или пневмонии, а затем оценить симптомы пациента.

5. Географические информационные системы

В исследовании Zhou et al. (2020), сочетание географических информационных систем (ГИС) и больших данных может помочь правительству составить карту распространения пандемии COVID-19. ГИС может отображать потребности в медицинских ресурсах, социальные настроения, материально-технические потребности и количество выздоровевших пациентов с COVID-19 в каждом регионе. Кроме того, визуализация ГИС может помочь правительствам и связанным с ними организациям принимать решения о распространении COVID-19.

Благодаря приведенному выше исследованию модель ГИС может быть объединена с большими данными, чтобы помочь правительству прогнозировать распространение вируса COVID-19 на основе данных 20 000 пациентов. Более того, правительство также может заранее принять решение о распространении COVID-19.

Рекомендации

  • Алсунаиди, С.Дж., Альмухайдеб, А.М., Ибрагим, Н.М., Шейх, Ф.С., Альгудайхи, К.С., Альхайдари, Ф.А., Хан, И.У., Аслам, Н. и Альшахрани, М.С. (2021). Применение аналитики больших данных для борьбы с пандемией COVID-19. Датчики. 21 (7).
  • Амбигавати, М. и Шридхаран, Д. (2018). Аналитика больших данных в здравоохранении. 10-я Международная конференция по передовым вычислениям, ICoAC 2018, 2018. (декабрь 2019 г.). п.п. 269–276.
  • Брагацци, Н.Л., Дай, Х., Дамиани, Г., Бехзадифар, М., Мартини, М. и Ву, Дж. (2020). Как большие данные и искусственный интеллект могут помочь в борьбе с COVID-19. Бизнес-школа IE. [В сети]. п.п. 4–11. Доступно по адресу: https://www.ie.edu/business-school/news-and-events/whats-going-on/big-data-artificial-intelligence-can-help-covid-19/.
  • Корси А., де Соуза Ф.Ф., Пагани Р.Н. и Ковалески, Дж. Л. (2020). Аналитика больших данных как инструмент борьбы с пандемиями: систематический обзор литературы. Журнал окружающего интеллекта и гуманизированных вычислений. [В сети]. (0123456789). Доступно по адресу: https://doi.org/10.1007/s12652-020-02617-4.
  • Халим, А., Джавид, М., Хан, И.Х. и Вайшья, Р. (2020). Важное применение больших данных во время пандемии COVID-19. [В сети]. 2020. Индийский журнал ортопедии. Доступно по адресу: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7204193/. [Доступ: 23 марта 2021 г.].
  • Хуссейн, М.К., Хуссейн, М.Дж., Осман, М.Б., Абдуррахим, М. и Аль-Арифи, М. (2020). Большие данные в здравоохранении. Международный журнал новейших технологий и техники. 8 (6). п.п. 2127–2131.
  • Кумар, С. и Сингх, М. (2019). Аналитика больших данных для отрасли здравоохранения: влияние, приложения и инструменты. Сбор больших данных и аналитика. 2 (1). п.п. 48–57.
  • Ли, X., Чжао, Z. и Лю, Ф. (2020). Ассимиляция больших данных для повышения предсказуемости COVID-19. География и устойчивость. [В сети]. 1 (4). п.п. 317–320. Доступно по адресу: https://doi.org/10.1016/j.geosus.2020.11.005.
  • Фам, ТД (2021). Классификация рентгенографии грудной клетки COVID-19 с глубоким обучением: новые модели или тонкая настройка? Информатика и системы здравоохранения. [В сети]. Доступно по адресу: https://doi.org/10.1007/s13755-020-00135-3.
  • Р. К., А. (2020). Структурированные данные или неструктурированные данные: что лучше для вашего бизнеса? [Онлайн]. 2020. Доступно по адресу: https://sarasanalytics.com/blog/stuctured-data-vs-unstructured-data. [Доступ: 27 марта 2021 г.].
  • Рамирес, М., Морено, Х.Б.Р. и Рохас, Э. М. (2018). Большие данные в здравоохранении. [В сети]. Спрингер Сингапур. Доступно по адресу: http://link.springer.com/10.1007/978-981-10-8476-8.
  • Соннати, Р. (2015). Улучшение здравоохранения с помощью анализа больших данных. Улучшение здравоохранения с помощью аналитики больших данных. 6 (3). п.п. 142–146.
  • Таленд (2021). Структурированные и неструктурированные данные: полное руководство. [В сети]. 2021. Доступно по адресу: https://www.talend.com/resources/structured-vs-unstructured-data/. [Доступ: 27 марта 2021 г.].
  • Чжоу, К., Су, Ф., Пей, Т., Чжан, А., Ду, Ю., Луо, Б., Цао, З., Ван, Дж., Юань, В., Чжу, Ю., Сун, К., Чен, Дж., Сюй, Дж., Ли, Ф., Ма, Т., Цзян, Л., Ян, Ф., Йи, Дж., Ху, Ю., Ляо, Ю. и Сяо, Х. (2020). COVID-19: проблемы ГИС с большими данными. География и устойчивость. [В сети]. 1 (1). п.п. 77–87. Доступно по адресу: https://doi.org/10.1016/j.geosus.2020.03.005.