Етикетиращи устройства за данни в силно специализирани области: как и къде да ги вземем?

Не е изненадващо, че разработката на AI разчита на алгоритми за машинно обучение, които изискват тонове точно обозначени данни, за да осигурят приемливи резултати.

Съществуват редица подходи за получаване на етикетирани данни, но повечето от тези методи използват човешки маркери. От вътрешния път до краудсорсинга, етикетиращите трябва да научат определени трикове и методологии и да се запознаят със съответните инструменти за етикетиране; но след като направи това, действителното съдържание, което се етикетира, в повечето случаи е очевидно.

Макар че като етикетиращ човек трябва да овладеете някакъв софтуер и да се научите как да се ориентирате в задачите за етикетиране, вероятно няма да имате проблем с разпознаването на разликата между цветове или форми, одушевени срещу неодушевени обекти или ядливи срещу . негодни за консумация материали. Но какво, ако говорим за нещо много по-напреднало? Като морско инженерство и етикетиране на различни компоненти на кораби и подводници? Или ботаника и способността да разпознавате различни растителни видове заедно с техните малки структурни разлики? Или медицина и познаване на подробната анатомия на жизненоважни органи, за да може да „идентифицира потенциални здравословни проблеми и да предвиди животозастрашаващи епизоди“? Всеки един от тези случаи се нуждае от висококвалифициран, опитен специалист, който да етикетира данните: няма два начина за това.

Големи идеи, по-големи предизвикателства

Според някои от „най-новите авангардни изследвания на ИИ“ от областите „молекулярна биология“, „биохимично инженерство“ и невронауки, идващи от няколко технологични центъра по цялата планета, включително Силиконовата долина, етикетирането на такива сложни данни е огромно начинание. И това предизвикателство далеч не е прекратено. Една от причините е, че са необходими извънредни количества данни, за да може машината да научи и разбере достатъчно, за да може да предложи помощ в специализирани области. И това не може да са каквито и да било данни — данните трябва да бъдат безупречно етикетирани. В някои случаи „алгоритъм за биодиагностичен дълбоко обучение“ трябва да сканира 10 милиона съединения, за да идентифицира свързващо вещество с малка молекула, като всяко едно от тях изисква най-малко 15 000 примера, за да достигне 90% степен на точност, която с времето може да се повиши до 99%. Това са много етикетирани данни!

„Много медицински специалисти, които работят с AI“ изразяват тази загриженост. Според Katharina von Loga, M.D., консултант по молекулярна патология в The Royal Marsden в Обединеното кралство, когато става дума за клетъчна биология и имунология, стандартизирането на широкомащабни медицински данни, за да бъдат „коригирани с алгоритъм“, е по-лесно да се каже, отколкото да се направи. Дейвид Албърт, M.D., лекар и разработчик на медицински технологии с AliveCor Labs, допълнително обяснява, че прецизността на ML алгоритмите зависи от размера на извадката и този размер зависи от наличието на здравни специалисти, способни на експертно етикетиране. Що се отнася до кардиологията, например, в САЩ има само 30 000 практикуващи специалисти, всички от които са невероятно заети. В същото време всяко медицинско изображение изисква поне три независими мнения, за да се считат етикетираните данни за надеждно проверени.

Така че това е въпрос на наличието на достатъчно данни и същевременно достатъчно хора, които да етикетират тези данни умело. И докато някои компании и изследователски институции разшириха силата си за етикетиране, за да включат не само млади професионалисти, но и масови изпълнители от платформи като MTurk, все още има недостиг на анотатори на данни, способни на последователно, високо специализирано етикетиране. Мненията за това как да се реши тази дилема се различават.

По време на скорошен работилник VLDB последва дискусия между гост-лектори, които са участвали в етикетирането на данни както като практици, така и като изследователи. Един от основните въпроси, които засягаха панела, беше: как и къде да намерим маркери за специфични за домейни данни, които притежават високо ниво на опит? Въпросът е, че такива хора са преди всичко утвърдени професионалисти в съответните си области - етикетирането на данни не представлява особен интерес за тях.

Разбира се, има някои, които наистина могат да се насладят на плодовете на собственото си етикетиране, като например тези, които може да знаят много за човешкото тяло, които следователно могат да етикетират анатомични данни и които впоследствие могат да използват софтуера, захранван от тези данни, за диагностициране на заболявания като част от ежедневната им дейност. Но като цяло медицинските специалисти не са етикетиращи данни, и обратното. И така, трябва ли да държим тези дейности разделени или можем по някакъв начин да ги накараме да се допълват?

От квалифицирани професионалисти до етикетиращи на пълен работен ден?

Както при много неща, тук става въпрос за стимула. Могат ли висококвалифицирани специалисти да бъдат привлечени в областта на етикетирането на данни, ако им предложим нещо? Някои смятат, че отговорът е да. Грейс Абухамад, учен по приложни изследвания в Trustworthy AI в ServiceNow, отбелязва, че е възможно да се придобие екип от вътрешни етикетьори на пълен работен ден, които работят заедно с разработчици на продукти и дизайнери. Тези професионалисти не са там само за времетраенето на един проект — те на практика са етикетиращи служители, които са специализирани в тесни, силно технически области. Това изглежда достатъчно разумно, но този тип настройка идва със своите ограничения.

На първо място, някой трябва да бъде етикетиращ данни на пълен работен ден. Това означава, че не могат да правят нищо друго. Но дали утвърден професионалист, да речем хирург, ще иска да се откаже от практиката си и да премине към етикетиране на данни? Това не изглежда много вероятно. Така че вероятно говорим за завършил студент или някой, който току-що започва кариерата си - дори относително висока почасова ставка заедно с препоръчително писмо няма да стимулира успешен лекар или архитект в разцвета на силите си да изостави практиката си.

Олга Мегорская, главен изпълнителен директор на Толока, обяснява, че наемането и задържането на такъв професионалист като вътрешен етикетьор на пълен работен ден — дори току-що обучен — ще изисква нивото на заплащане да бъде равно или по-високо отколкото тяхното (потенциално) основно занимание, което е изключително скъпо за етикетиране на данни. Всъщност цената ще бъде двойно по-висока, тъй като има два фактора, които допринасят: (а) цената на вътрешното етикетиране, може би най-малко време и рентабилен метод за етикетиране на данни, дори без участието на тясно обучен професионалисти и (б) наемането на тези лица в допълнение към първоначалните високи разходи.

Това автоматично означава, че това решение по своята същност е неразширимо, защото просто не е финансово устойчиво. И ако не е мащабируем, тогава не изпълнява една от основните цели на етикетирането на данни от гледна точка на бизнеса. Накратко, предложената стратегия вероятно може да подаде така необходимата помощ, но всъщност не може да предложи широкомащабно решение, което да може да се приложи навсякъде.

Освен това Олга твърди, че има друг проблем. Ако прекарвате цялото си време в етикетиране на данни, рано или късно вашият експертен опит в областта ще остарее, тъй като вече не сте практик във вашата област. И в света, в който иновациите и смущенията в индустрията се появяват с нарастваща редовност, вашата амбиция да станете търговец на етикети на върха на вашата игра може всъщност да дойде с цената на изоставане като експерт във вашата професионална област. Което означава, че вашият опит няма да е толкова уместен днес, колкото когато сте започнали, и по ирония на съдбата, нито вашето етикетиране в крайна сметка.

И на всичкото отгоре има още един, категоричен въпрос. Наличието на етикетиращи лица на пълен работен ден, специализирани в силно технически области, изглежда предполага, че всеки, който прави етикетирането, го прави само в една област. В противен случай приемащата компания трябва да наеме няколко екипа, т.е. по един за всеки специализиран предмет. В края на краищата, може ли един и същ екип за етикетиране да се справи както с fMRI сканиране, така и с тръбопроводи за суров нефт? Това изглежда като далеч! Така че това от своя страна добавя още повече разходи към това, което вече е невъзможно скъпо предприятие. И единственият друг осъществим вариант е чисто нишово етикетиране, тоест една компания за етикетиране на данни — една професионална област.

Алтернативни подходи: етикетиране на непълно работно време и „по време на работа“

Мохамед Амгад, сътрудник по преддокторска патология от Северозападния университет, вярва, че тези недостатъци могат да бъдат преодолени чрез промяна на подхода. Първо, Мохамед твърди, че етикетирането на данни трябва да бъде занимание на непълно работно време, както общо казано, така и в по-голяма степен, когато става дума за силно специализирани области. Второ, етикетирането на данни може на теория да стане неразделна част от медицинската практика, а не отделно начинание. Например, когато патолозите се опитват да поставят диагноза, те неизменно използват някаква форма на данни - било то рентгенови лъчи или компютърна томография - които в наши дни са изцяло цифрови. Нещо повече, те обработват тези данни и неволно ги „етикетират“ по някакъв начин, дори и само в главите си.

И така, какво пречи на тези професионалисти да формализират личните си интерпретации и да създадат готов набор от данни или да допринесат за съществуващ? Това наистина не би довело до допълнително време или разходи. И дори ако изисква известно плащане, тази стратегия пак ще бъде по-бърза и по-евтина, защото: (а) тези професионалисти няма да трябва да положат всички усилия, за да го направят, и (б) вероятно няма да възразят, ако произведените набори от данни ще помогнат на тяхната собствена работа в бъдеще. С други думи, тази инициатива може да се осъществи сравнително лесно, но уви, в момента не се огласява и не се чува.

Друго решение Мохамед предлага кръгове обратно към използването на завършили студенти. Етикетирането на данни в областта на медицината, както и много други, може да се третира като часове за практика, зачетени към конкретна квалификация. Механизмът тук е прозрачен и лесен за разбиране: завършилите студенти (и вероятно дори бакалаври) могат да извършват етикетирането, да печелят своите кредити, а лекарите на пълно работно време могат да използват тези данни, за да изпълняват своите операции, подпомагани от AI. И когато дойде времето тези студенти сами да станат лекари, те ще имат ново поколение стажанти, които да предоставят новомаркирани данни. Това е спретната подредба за всички.

Jie Yang, асистент професор в Технологичния университет в Делфт, твърди, че дори етикетирането на непълно работно време, извършвано от висококвалифицирани експерти, е нещо, което не много компании могат да си позволят. Подобно на Мохамед, Jie вярва, че не става дума толкова за етикетиране на данни като независима дейност, а по-скоро за включване на етикетирането в това, което квалифицираните специалисти вече правят в редовната си работа. С други думи, трябва да се съсредоточим върху получаването на използваеми знания от тези експерти, които могат да бъдат приложени към етикетирането на данни, вместо да се опитваме да направим чисти етикетиращи от тези професионалисти. Това, според Jie, означава не просто предлагане на финансови стимули или дори перспективи за кариера, а по-скоро привличане към хуманния аспект на работата. Трябва да помолим тези експерти да допринесат за съответните си сфери, като споделят информация в общността. Това ни води до решаващия въпрос за социалната отговорност.

Включване и социална отговорност

Полето на етикетиране на данни достигна точка, когато трябва да се заеме директно с въпроса за социалната справедливост. Това бележи качествено нова глава в развитието на ML и AI, която съдържа два важни компонента. Едната е свързана със социално отговорни и значими задачи за гореспоменатите квалифицирани специалисти. Друга е свързана с масовите изпълнители от развиващите се страни, които могат да бъдат измъкнати от бедността. И двата аспекта се свеждат до издигане до повода за поемане на повече социална отговорност, от една страна, и използване на методи като краудсорсинг за постигане на целите на етикетирането, от друга. По-специално, първото прави възможно второто.

Първо, както чухме, обещанието за нещо смислено и полезно за населението като цяло може да мотивира висококвалифицираните професионалисти повече от парите и повишението. Олга от Toloka обяснява, че с напредването на AI индустрията, ML моделите ще изискват все по-сложни данни, които изискват много повече от етикетиращите, за да могат да изпълняват предизвикателни задачи. Съвсем скоро ще достигнем момент, когато висококвалифицираните изпълнители ще се превърнат в предпоставка за етикетиране на данни в определени области. За щастие, квалифицирани професионалисти са готови да допринесат, ако мисията си заслужава.

Последният пример е „Инициативата за 1+ милиона генома“, която се опитва да обедини множество държави, за да „изградят висококачествена европейска мрежа от национални геномни референтни кохорти“. Това е част от „Европейския план за побеждаване на рака“, който се отнася изцяло до споделяне на етикетирани данни, макар и не непременно за целите на изграждането на AI. Когато става въпрос за AI, същото обединяване на професионалистите е в сила и краудсорсингът може да предложи проста и надеждна методология, за да превърне тази визия в реалност. Освен това Олга твърди, че един успешен адвокат, например, няма да се съгласи да прекара целия си ден в етикетиране на данни, но може да прекара част от деня си в това за социално справедлива кауза. Освен това, това е много по-вероятно, ако тези данни в крайна сметка ще премахнат по-рутинните части от собствената им работа чрез въвеждане на AI. С други думи, социално отговорният аспект на техния принос става още по-важен, ако помага на всички, включително на самите професионалисти.

Второ, социалната отговорност се простира и до платформи за краудсорсинг, които набират етикетиращи данни. Това се свежда до предлагане на възможности за доходи на тези, които се борят финансово, а именно страни с нисък БВП на глава от населението в Африка, Азия и Латинска Америка. Квалифициран етикетьор от Индонезия, Нови Листянингрум, който е завършил студент в Institut Kesenian Jakarta, потвърждава това, като обяснява, че Толока е място, където тя може да кандидатства и дори да подобри своя опит като индустриален дизайнер и също така да прави добри пари в процес.

Според Forbes, тази социално отговорна позиция се споделя от други утвърдени компании, включително Sama със седалище в Силиконовата долина, която използва подхода „човек в цикъла“ за етикетиране на данни и специално търси етикетиращи данни в развиващия се свят . В резултат на това компанията може да предостави възможности на хора от някои от най-слабо обслужваните региони на света, включително LDCs. За тяхна радост производителите на етикети на Sama успяват да извлекат месечен доход повече от четири пъти над средния за местния пазар.

Окончателна присъда

Чували сме редица различни гласове и аргументи, които се опитват да отговорят как експерти от тясно специализирани области могат да бъдат насърчени да извършват етикетиране на данни. Всички мнения и предложения могат да бъдат обобщени по следния начин:

Развитието на AI в силно специализирани области изисква висококвалифицирани специалисти, които да извършват етикетирането на данни.
Научните и медицински области изискват огромни количества данни за ML алгоритми и са необходими няколко мнения за една и съща точка от данни, за да се считат етикетираните данни за проверени и надеждни.
Съставянето на вътрешен екип от такива професионалисти предлага временно решение; обаче е твърде скъпо, за да бъде комерсиално устойчиво и мащабируемо.
Ако се поеме вътрешният маршрут, това предполага или етикетиране на ниша, или наемане на множество екипи: по един екип за всяка професионална област.
Специалистите, които са напуснали професионалните си области за кариера в етикетирането на данни на пълен работен ден, трябва да са в крак с най-новите иновации и прекъсвания, засягащи техните индустрии, за да поддържат конкурентно предимство.
Етикетирането на непълно работно време и на работното място може да бъде по-устойчив вариант за етикетиране на данни в силно специализирани области.
Тези, които се обучават, за да станат висококвалифицирани специалисти (т.е. студенти), могат да получат часове за практикум за етикетиране на данни в замяна на академични кредити.
Някои професионалисти в области като медицината вече обработват данни ежедневно: въпросът е да ги накарате да споделят откритията си, като им предложите бъдеща помощ от AI, за да ги освободите от рутинни задачи.
Утвърдени специалисти на Запад могат да бъдат подмамени да етикетират данни не чрез пари или промоция, а по-скоро чрез повишаване на общественото съзнание и искане от тях да дадат обратно на общността. Това може (и трябва) да се направи заедно с предишната стъпка.
Платформите за етикетиране на данни/краудсорсинг също трябва да бъдат социално отговорни, като предлагат възможности на масови изпълнители в бедните региони на света и се борят с бедността там.
Краудсорсингът има потенциала да обедини регионалните общности за общата цел за устойчиво управление на данни, развитие на ИИ и последващ мултидисциплинарен научен прогрес.

Етикетиращи устройства за данни в силно специализирани области: как и къде да ги вземем?

Не е изненадващо, че разработката на AI разчита на алгоритми за машинно обучение, които изискват тонове точно обозначени данни, за да осигурят приемливи резултати.

Подобни въпроси