Не, AI няма да замени работата ви

Светът винаги се променя

„И така. Какво правиш?“

„О, аз съм учен по данни в ‹така и така›“

„О, уау! Ще напишеш машини, които да поемат работата ни, а?“

Чувам този разговор често на партита. И аз се смея.

Вярно е. Изкуственият интелект и машинното обучение направиха значителен напредък през последните няколко години. Напредъкът в процесорната мощ на GPU, облачните изчисления и пакетите за дълбоко обучение направиха това възможно.

Като се има предвид това, ние сме ГОДИНИ от това изкуственият интелект да поеме критичното мислене. Хората все още са необходими.

Защо съм толкова сигурен? Наскоро попаднах на тази статия.

Стотици AI инструменти са създадени за улавяне на covid. Нито едно от тях не помогна.
Прескачане към съдържанието Някои са били използвани в болници, въпреки че не са правилно тествани. Но пандемията може да помогне за...www.technologyreview.com

Това беше публикувано на 30 юли 2021 г., една година след пандемията от COVID. От избухването на COVID на 30 март 2020 г. учените разполагаха с данни загодина и четири месеца. Ако AI беше невероятен, защо всички тези инструменти все още бяха негодни за клинична употреба?

Изненадващо, не става въпрос за нов математически алгоритъм или сложен статистически подход. Всички проблеми се намират в основните статистики и анализи.

Неизвестни или противоречиви данни

AI инструментите се провалиха, защото бяха обучени на неизвестни данни.

Това не е грешка на изследователите. COVID беше напълно неизвестен, когато избухна на 30 март 2020 г. Експертите по пандемията трябваше да разчитат на знания от предишни пандемии, за да определят какво прави тази нова болест. В хода на световната история е имало 19 известни пандемии. 13 от тях са започнали преди началото на 20 век.

Имало ли е езера от данни в интернет, събиращи данни, когато средновековните селяни са страдали от бубонна чума? Или когато Римската империя се срина поради пандемия от едра шарка? Археолозите се борят да намерят дори5 ръкописни медицински досиета от тези епохи.

Имахме ли изобщо данни за начало? Бяха ли данните добри и сравними с други? Можем ли да нормализираме всички медицински данни от различни векове в един последователен стандарт?

Въз основа на начина, по който работи съвременният свят, силно се съмнявам. Ако съвременните болници все още не могат да се споразумеят за последователен формат на данни за електронни здравни досиета, тогава защо бихме очаквали лекарите от Войната за независимост да използват стандартен формат на данни за своите записи на пергамент и перо?

Като се има предвид това, сегашната технология помогна много при изучаването на COVID. След 2 години на пандемията учените вече имат по-добра представа за откриване на симптоми и намиране на други болести, които си заслужават сравнение. Медицинските експерти бяха изумени от това колко бързо се натрупват доказателства за COVID и колко бързо се създават модели.

Въпреки стотиците разработени AI инструменти, самодвасе смятат за обещаващи. Защо е голямото несъответствие?

Ужасен проучвателен анализ на данни

Хората смятат, че анализът на данни не е част от работата на специалиста по данни. Те смятат, че всичко, което един учен по данни трябва да направи, е да се съсредоточи върху изграждането на сложни модели.

Написах по-ранна публикация за това защо да си страхотен анализатор на данни е от решаващо значение, за да станеш страхотен учен по данни. Публикацията е по-долу.

Искате ли да бъдете ценен специалист по данни? Тогава не се фокусирайте върху създаването на сложни модели
Съсредоточете се върху това да бъдете по-добър анализатор на данни!towardsdatascience.com

Данните за COVID са сравнително нови. Идва от различни източници. 95% от работата е почистване на данните, премахване на дубликати, нормализиране на променливи и т.н. 5% са писане на 4 реда от sklearn библиотека за обучение и изграждане на модел.

Така че защо тези специалисти по данни са обучавали модели върху набори от данни с дубликати? Ако набор от данни е разделен на обучителен и тестов набор, тестовият набор ТРЯБВА да включва данни, върху които моделът не е обучаван преди. В противен случай точността на модела се определя не от това колко добре прогнозира данните, а колко добре е запомнил отговорите. Дубликатите увеличават шанса тестовият набор да има данни, които моделът вече е виждал в тренировъчния набор.

Ако едно дете получи 100% на изпита, бихте помислили, че то/тя е работило усилено, за да учи. Ще продължите ли да се чувствате по същия начин, ако детето открадне отговорите за този изпит и ги научи наизуст предварително? Не. Тогава защо моделите за машинно обучение получават пропуск?

Защо този набор от данни не е изчистен? Не се нуждаете от магистърска или докторска степен, за да почиствате данни. Можете да направите това с няколко книги за SQL или Python For Dummies от библиотеката. И всичко, което ви струва, в най-лошия случай, е няколко долара такси за закъснение.

Като се има предвид това, почистването на набор от данни се подобри с времето. Можете да намерите чист набор от данни за COVID в Kaggle.

И така, защо AI моделите ВСЕ ПАК се провалиха?

Лош избор на характеристики и данни

Кое е любимото изречение на един статистик?

Корелацията НЕ е равна на причинно-следствената връзка.

Има толкова много истина зад това. Всички обичаме да намираме модели за прогнозиране на големи резултати. Независимо дали е често срещано като кашляне няколко пъти на ден, което показва, че сте болни. Или е толкова суеверно, колкото вашият футболен отбор Филаделфия Ийгълс да печели всеки път, когато правите макарони със сирене за обяд.

Корелациите са забавни в спорта, но опасни в медицинските изследвания. Ако корелацията ви е грешна в спорта, никой не умира. Ако корелацията ви е грешна в медицината, здравето на човек е засегнато. Бъдете готови да отделите милиони долари в съдебно дело за злоупотреби.

Един модел може да установи много корелации чрез избор на характеристики, които хората никога не са забелязали. При обработка на естествен език това може да е често срещана дума, присъстваща на всяка страница. При обработката на изображения той може да бъде общ обект, присъстващ във всяко изображение.

Това НЕ означава, че думата/обектът е надеждна характеристика.

В предишната ми публикация Искате ли да бъдете ценен учен по данни? Тогава не се съсредоточавайте върху създаването на сложни модели(посочено по-горе), дадох пример за текстов класификатор, който помогнах да изградя, който избра грешна функция. За да предвиди дали дадена страница говори за наранявания на гърба, класификаторът погледна присъствието на пълното име на пациента. Ако пълното име на пациента беше на тази страница, тази страница беше класифицирана като нараняване на гърба. Иначе не беше.

Тази функция няма смисъл. Но моделът не знае какъв е терминът нараняване на гърба. Той просто тренира върху данните, които му подаваме. Оказа се, че всички медицински формуляри за нараняване на гърба, на които обучихме модела, са от 80-те години. Всяка страница имаше пълното име на този пациент. Тъй като един от тези записи е с дължина 40 страници (а други записи имат дължина от 2 до 5 страници), моделът приема, че пълното име на пациента за този запис е характеристика за прогнозиране на нараняване на раницата.

Това за съжаление е често срещана грешка, забелязана от рентгенолозите и лекарите от тези AI инструменти.

Конволюционните невронни мрежи (CNN) предсказаха риска от COVID при пациенти, на които е направена рентгенова снимка на гръдния кош в легнало положение. Корелацията е, че рентгеновите снимки на гръдния кош в изправено положение показват, че пациентите са достатъчно здрави, за да стоят. Много болници обаче сканираха рентгенови снимки на здрави пациенти, които лежаха. CNN прогнозира тези пациенти без COVID като висок риск от COVID.
CNN прогнозира риска от COVID въз основа на текстови шрифтове от медицински досиета от определени болници. Тези болници обикновено имат повече пациенти с COVID, но CNN смятат, че уникалните текстови шрифтове за тези болници са подходяща функция. Той диагностицира погрешно здрави пациенти само защото са от тези болници.
Изследователите обучиха своите инструменти за изкуствен интелект на конкретен набор от данни за рентгеново изследване на гръден кош за COVID. Радиолозите намериха тези CNN за неправилни и проучиха по-отблизо набора от данни. Оказва се, че всички рентгенови снимки на гръдния кош, които са означени като „не-COVID“, са от деца. CNN не можа да предскаже точно COVID при възрастен, тъй като възрастните имат различни биологични структури от децата. Всичко, което CNN можеха да направят, беше да идентифицират деца от рентгенови снимки на гръдния кош.

Първото нещо, което научава специалистът по данни, не е изграждането на модел. Или алгоритми. Това е проучвателен анализ на данни. Специалистът по данни трябва да разбира точно с какви данни работи. Не изтегляйте нещо от интернет и сляпо приемайте, че е точно и изчистено. Светът не раздава чисти и обработени набори от данни, както прави Kaggle.

Не е честно да се очаква от учен по данни да познава радиологията. Ето защо имаме тези медицински експерти да валидират тези набори от данни. Ако учен по данни пренебрегне съветите, които тези експерти са прекарали години в изучаване, тогава техният модел ще бъде неточен.

И така, всичко това е свързано с AI инструментите, които се обучават на ужасни набори от данни. Това можеше да бъде коригирано от учените, които изчистиха наборите от данни, проучиха данните, премахнаха функции, които нямат смисъл, и потвърдиха с експерти в областта. Защо този процес беше прибързан?

Предпочитание на скоростта пред качеството

Светът се движи бързо.

Има натиск да работим денонощно и да извлечем нещо. Рано пиле, рано пее.

Проблемът е, че здравеопазването е бавно. По много добра причина. Въпреки прекомерните такси, които лекарят описва при годишното ви посещение, целта на здравеопазването не е да оптимизира печалбите. Целта на здравеопазването е да спасява животи. За да се постигне тази цел, почти всички изявени експерти в общността трябва да потвърдят правилността на дадена констатация.

През 90-те и 2000-те години има публикувани статии за стволови клетки, генно секвениране и други методи за лечение на рак. 2022 г. е. Защо ракът все още не е излекуван?

Отговорът е, че валидирането на тези техники отнема време. Всеки медицински изследовател трябва сам да проведе експериментите и да потвърди, че е видял едни и същи открития във ВСИЧКИ демографски данни. Възраст, раса, пол и увреждания могат да повлияят на тези техники.

Технологичните предприемачи и рисковите капиталисти от Силициевата долина твърдят, че AI може да помогне на тези изследователи да валидират по-бързо. Да, AI може да предсказва нещата и да улавя обекти по-бързо от хората. Тези учени дори написаха алгоритми за откриване на множество фрактури на скелета в една рентгенова снимка, постижение, което не е правено досега (вижте статията по-долу).

Оценка на AI помощ при откриване на фрактури на апендикуларен скелет при възрастни при спешни случаи…
История Интерпретацията на радиографиите страда от непрекъснато нарастващо натоварване в спешните случаи и радиологията…pubs.rsna.org

Медицински експерти обаче тестваха резултатите от този инструмент в извадка от 600 пациенти (средна възраст ± стандартно отклонение, 57 години ± 22; 358 жени). Помощта за изкуствен интелект съобщи следното за тази проба по-долу.

подобри чувствителността (истински положителен процент) на лекарите с 8,7% (95% CI: 3,1, 14,2; P = .003)
подобри специфичността (истински отрицателен процент) с 4,1% (95% CI: 0,5, 7,7; P ‹ .001)
намалява средния брой фалшиво положителни фрактури на пациент с 41,9% (95% CI: 12,8, 61,3; P = .02) при пациенти без фрактури
намали средното време за четене с 15,0% (95% CI: –30,4, 3,8; P = .12).

CI се отнася до доверителния интервал, който е диапазон от неизвестни оценки за извадка.

Въпреки че помощта се подобри във всеки от 4-те показателя за откриване на фрактури на черепа, доверителните интервали за всеки показател са огромни.

Това е проблематично, тъй като доверителните интервали се използват в проучвания, които набират малка извадка от цялата популация. Можем да заключим, че истинският ефект на населението се намира между долната граница и горната граница на нивото на доверие. Ако доверителният интервал премине 1, тогава това означава, че няма разлика между частите на изследването.

Тъй като доверителните интервали показват ниво на несигурност около мярката на ефекта, искаме диапазонът да бъде възможно най-малък. Всяко от 4-те измервания по-горе има доверителен интервал, който преминава 1 (14,2, 7,7, 61,3, 3,8), въпреки че проучването отчита 95% доверителен интервал за всеки показател.

Дори ако резултатите изглеждаха обещаващи, те не се отнасяха за цялата популация поради липса на разлика между групите в проучването. Не е ясно дали инструментът може правилно да открие всички фрактури на скелета.

Освен това медицинските експерти се оплакват от липсата на клинични данни в прогнозите на тези инструменти за изкуствен интелект. Без познания за констатациите от физическия преглед на пациентите или тяхната медицинска история, тези инструменти имат външни отклонения, които влияят на техните прогнози. Независимо дали става дума за определен шрифт, използван от болниците, или за определено разположение, на което е позициониран рентгеновият лъч. Или използване на име на пациент за идентифициране на нараняване на гърба.

Резюме

Има много начини да получите правилния отговор. Начинът, по който са научили много AI инструменти, е грешен. Това може да бъде решено, ако специалистите по данни отделят повече време за разбиране и валидиране на своите набори от данни, вместо бързо да се опитват първо да прокарат неточния си модел.

Дори ако изчистят данните си и подобрят характеристиките на модела си, учените по данни ще създадат ли перфектния модел? Не. Преди 2020 г. никой не знаеше какво е COVID. Отне година и четири месеца, за да се получи обща представа за това как тази болест е различна от другите и колко варианта има. Медицинските изследователи откриват нови неща, които не са научили за настоящите и новите заболявания.

Медицината не е статична. Непрекъснато се развива. Новите изследователи допринасят с нещо ново за медицинската общност. Моделите ще трябва да бъдат актуализирани с нови данни, за да бъдат в крак. Моделите трябва непрекъснато да се учат да прогнозират точно.

Хората все още ще трябва да намерят нови данни, за да работят моделите. Ако моделите се нуждаят от чисти данни, за да бъдат ефективни, хората ще трябва да намерят начини да създадат тези данни. Ето защо някои модели на машинно обучение имат човешки преглед за някои точки от данни, които се нуждаят от преразглеждане. Независимо дали става въпрос за нечетим медицински формуляр или празно поле, е необходим човешки принос, за да може моделът да работи точно.

Докато светът се променя, хората все още ще имат работа.

Благодаря за четенето!

Специални благодарности на Dr. Vikrant Khare за помощта му при написването на това произведение.

Ако се интересувате да научите как да симулирате непрекъснато обучение от инженерна гледна точка, вижте публикацията ми по-долу.

Симулиране на модели за непрекъснато обучение с въздушен поток
Конфигурирайте инструмент за управление на работния процес за пресъздаване на модели на редовни интервали в рамките на 13 минутиtowardsdatascience.com

Ако се интересувате да научите как да включите човешки преглед в тръбопровод за извличане на PDF данни, вижте публикацията ми по-долу.

Подобряване на OCR разпознаването чрез човешки преглед чрез Amazon Augmented AI
Създаване на конвейер, който извлича данни от PDF документи чрез OCR и човешки преглед за 13 минутиmedium.com

Ако искате да прочетете повече от работата ми, вижте моето Съдържание.

Ако не сте член със средно заплащане, но се интересувате да се абонирате за Towards Data Science само за да четете уроци и статии като тази, щракнете тук, за да се запишете за членство. Записването в тази връзка означава, че получавам пари за това, че съм ви насочил към Medium.