Неудивительно, что разработка ИИ опирается на алгоритмы машинного обучения, которым для получения приемлемых результатов требуются тонны точно размеченных данных.

Существует ряд подходов к получению меченых данных, но в большинстве из этих методов используются люди, которые маркируют. От внутреннего маршрута до краудсорсинга маркировщики должны изучить определенные приемы и методологии и ознакомиться с соответствующими инструментами маркировки; однако после этого фактическое содержание, которое помечается, в большинстве случаев не требует пояснений.

Хотя вам, как этикетировщику, нужно освоить некоторое программное обеспечение и научиться ориентироваться в задачах маркировки, у вас, вероятно, не возникнет проблем с распознаванием различий между цветами или формами, живыми и неодушевленными объектами или съедобными и неживыми объектами. , несъедобные материалы. Но что, если мы говорим о чем-то более продвинутом? Нравится морская инженерия и маркировка различных компонентов кораблей и подводных лодок? Или ботаника и способность распознавать различные виды растений вместе с их незначительными структурными различиями? Или медицина и знание подробной анатомии жизненно важных органов, чтобы выявлять потенциальные проблемы со здоровьем и прогнозировать опасные для жизни эпизоды? В каждом из этих случаев требуется высококвалифицированный, опытный специалист для маркировки данных: здесь нет двух вариантов.

Большие идеи, большие задачи

Согласно некоторым последним передовым исследованиям в области искусственного интеллекта в области молекулярной биологии, биохимической инженерии и нейронауки, проводимым несколькими технологическими центрами по всей планете, включая Силиконовую долину, маркировка таких сложных данных является огромным обязательство. И эта задача далека от решения. Одна из причин заключается в том, что для того, чтобы машина научилась и понимала достаточно, чтобы иметь возможность предлагать помощь в специализированных областях, необходимы огромные объемы данных. И это не могут быть просто какие-то данные — данные должны быть безупречно размечены. В некоторых случаях биодиагностический алгоритм глубокого обучения должен сканировать 10 миллионов соединений, чтобы идентифицировать низкомолекулярное связующее, причем для каждого из них требуется не менее 15 000 примеров для достижения точности 90%, которая со временем может возрасти. до 99%. Это много размеченных данных!

Многие медицинские работники, работающие с ИИ, выражают эту обеспокоенность. По словам Катарины фон Лога, доктора медицинских наук, консультанта по молекулярной патологии в The Royal Marsden в Великобритании, когда дело доходит до клеточной биологии и иммунологии, легче сказать, чем сделать стандартизацию крупномасштабных медицинских данных, чтобы сделать их скорректированными по алгоритму. Дэвид Альберт, доктор медицинских наук, врач и разработчик медицинских технологий в AliveCor Labs, далее объясняет, что точность алгоритмов машинного обучения зависит от размера выборки, а этот размер зависит от наличия медицинских работников, способных к экспертной маркировке. Что касается кардиологии, например, в США всего 30 000 практикующих специалистов, и все они невероятно заняты. При этом для каждого медицинского снимка требуется не менее трех независимых мнений, чтобы считать размеченные данные достоверно проверенными.

Таким образом, это проблема наличия достаточного количества данных и одновременно достаточного количества людей, чтобы умело маркировать эти данные. И хотя некоторые компании и исследовательские институты расширили свои возможности по маркировке, включив в них не только молодых специалистов, но и массовых исполнителей с таких платформ, как MTurk, по-прежнему ощущается постоянная нехватка аннотаторов данных, способных к последовательной, узкоспециализированной маркировке. Мнения о том, как решить эту дилемму, расходятся.

Во время недавнего семинара VLDB завязалась дискуссия между приглашенными спикерами, которые участвовали в маркировке данных как в качестве практиков, так и исследователей. Один из основных вопросов, который волновал группу, заключался в следующем: как и где мы можем найти специалистов по маркировке данных в предметной области, которые обладают высоким уровнем знаний? Дело в том, что такие люди — в первую очередь состоявшиеся профессионалы в своих областях — маркировка данных для них не представляет особого интереса.

Конечно, есть люди, которые действительно могут наслаждаться плодами своего собственного навешивания ярлыков, например, те, кто может много знать о человеческом теле, поэтому они могут маркировать анатомические данные и впоследствии использовать программное обеспечение, основанное на этих данных, для диагностики болезней. как часть их повседневного занятия. Но по большому счету медицинские работники не занимаются маркировкой данных, и наоборот. Итак, должны ли мы разделить эти действия или мы можем как-то заставить их дополнять друг друга?

От квалифицированных специалистов до штатных этикетировщиков?

Как и во многих других случаях, речь идет о стимуле. Можно ли привлечь в область маркировки данных высококвалифицированных специалистов, если мы им что-то предложим? Некоторые думают, что да. Грейс Абухамад, научный сотрудник по прикладным исследованиям в области надежного искусственного интеллекта в ServiceNow, отмечает, что можно набрать команду штатных этикетировщиков, которые будут работать вместе с разработчиками продуктов и дизайнерами. Эти профессионалы работают не на время одного проекта — они фактически штатные этикетировщики, специализирующиеся в узких, высокотехнологичных областях. Это кажется достаточно разумным, но этот тип установки имеет свои ограничения.

Прежде всего, кто-то должен быть маркировщиком данных на постоянной основе. Это означает, что они не могут делать ничего другого. Но захочет ли состоявшийся профессионал, скажем, хирург, отказаться от своей практики и перейти на маркировку данных? Это маловероятно. Итак, мы, вероятно, говорим о аспиранте или о том, кто только начинает свою карьеру — даже относительно высокая почасовая ставка вместе с рекомендательным письмом не побудит успешного врача или архитектора в расцвете сил отказаться от своей практики.

Ольга Мегорская, генеральный директор Толока, объясняет, что для найма и удержания такого специалиста в качестве штатного этикетировщика на постоянной основе — даже недавно обученного — потребуется, чтобы его ставка была равна или выше чем их (потенциальное) основное занятие, которое исключительно дорого обходится для маркировки данных. На самом деле, стоимость будет вдвойне высока, потому что есть два сопутствующих фактора: (а) стоимость внутренней маркировки, возможно, наименее эффективного по времени и затратам метода маркировки данных, даже без участия какого-либо узкоквалифицированного специалиста. профессионалов, и (б) наем этих людей сверх первоначальной высокой стоимости.

Это автоматически означает, что это решение по своей сути не масштабируется, потому что оно просто финансово неустойчиво. А если он не масштабируемый, то он не выполняет одну из основных задач маркировки данных с точки зрения бизнеса. Короче говоря, предлагаемая стратегия, вероятно, может протянуть столь необходимую руку помощи, но на самом деле она не может предложить крупномасштабное решение, которое можно было бы реализовать повсеместно.

Кроме того, Ольга утверждает, что проблема в другом. Если вы тратите все свое время на маркировку данных, рано или поздно ваш опыт в предметной области устареет, поскольку вы больше не являетесь практиком в своей области. А в мире, где инновации и революционные изменения в отрасли появляются все чаще, ваше стремление стать ведущим лейблером может на самом деле осуществляться за счет отставания в качестве эксперта в своей профессиональной области. Это означает, что ваш опыт сегодня не будет так актуален, как тогда, когда вы начинали, и, по иронии судьбы, не будет иметь значения и ваша маркировка в конце.

И вдобавок ко всему, есть еще один категорический вопрос. Наличие штатных этикетировщиков, специализирующихся в высокотехнологичных областях, кажется, предполагает, что тот, кто занимается маркировкой, делает это только в одной области. Или же принимающей компании необходимо нанять несколько команд, то есть по одной на каждый специализированный предмет. В конце концов, может ли одна и та же команда маркировщиков обрабатывать и фМРТ-сканирование, и нефтепроводы? Это кажется далекой растяжкой! Таким образом, это, в свою очередь, увеличивает стоимость того, что уже является невероятно дорогим предприятием. И единственный другой возможный вариант — чисто нишевая маркировка, то есть одна компания по маркировке данных — одна профессиональная сфера.

Альтернативные подходы: неполный рабочий день и пометка "на рабочем месте"

Мохамед Амгад, научный сотрудник по патологии из Северо-Западного университета, считает, что эти недостатки можно преодолеть, изменив курс. Во-первых, Мохамед утверждает, что маркировка данных должна быть занятием неполный рабочий день, как в целом, так и, особенно, когда речь идет о узкоспециализированных областях. Во-вторых, маркировка данных теоретически может стать неотъемлемой частью медицинской практики, а не отдельной задачей. Например, когда патологоанатомы пытаются поставить диагноз, они неизменно используют какую-либо форму данных — будь то рентген или компьютерная томография, — которые в наши дни полностью цифровые. Более того, они обрабатывают эти данные и непреднамеренно маркируют их каким-то образом, пусть даже только в своей голове.

Так что же мешает этим профессионалам формализовать свои частные интерпретации и создать готовый набор данных или внести свой вклад в уже существующий? На самом деле это не потребует дополнительного времени или затрат. И даже если это потребует некоторой оплаты, эта стратегия все равно будет быстрее и дешевле, потому что: (а) этим профессионалам не придется изо всех сил стараться сделать это, и (б) они, вероятно, не будут возражать, если полученные наборы данных помогут в их собственной работе в будущем. Иными словами, эта инициатива может быть реализована достаточно легко, но, увы, на данный момент она не озвучена и не услышана.

Еще одно решение Мохамед предлагает кругам вернуться к использованию аспирантов. Маркировка данных в области медицины, как и во многих других, может рассматриваться как практические часы, засчитываемые для получения определенной квалификации. Механизм здесь прозрачен и прост для понимания: аспиранты (и, возможно, даже студенты) могут делать маркировку, зарабатывать кредиты, а штатные врачи могут использовать эти данные для выполнения своих операций с помощью ИИ. И когда придет время этим студентам самим стать врачами, у них будет новое поколение стажеров, которые будут предоставлять новые данные. Это четкая договоренность для всех.

Джи Ян, доцент Делфтского технологического университета, утверждает, что даже неполный рабочий день, когда маркировку выполняют высококвалифицированные специалисты, не многие компании могут себе позволить. Как и Мохамед, Джи считает, что речь идет не столько о маркировке данных как о самостоятельной деятельности, сколько о включении маркировки в то, что квалифицированные специалисты уже делают на своей обычной работе. Другими словами, мы должны сосредоточиться на получении полезных знаний от этих экспертов, которые можно применить к маркировке данных, вместо того, чтобы пытаться сделать из этих профессионалов настоящих маркировщиков. Это, по словам Цзе, означает не просто предложение финансового поощрения или даже карьерных перспектив, но скорее обращение к гуманному аспекту работы. Нам нужно попросить этих экспертов внести свой вклад в их соответствующие сферы, поделившись информацией в сообществе. Это подводит нас к решающему вопросу социальной ответственности.

Инклюзивность и социальная ответственность

Область маркировки данных достигла точки, когда она должна решать проблему социальной справедливости. Это знаменует собой качественно новую главу в развитии машинного обучения и искусственного интеллекта, которая содержит два важных компонента. Одна из них связана с социально ответственными и значимыми задачами для вышеупомянутых квалифицированных специалистов. И еще одна проблема связана с массовиками из развивающихся стран, которых можно вытащить из бедности. Оба этих аспекта сводятся к тому, чтобы, с одной стороны, взять на себя большую социальную ответственность, а с другой — использовать такие методы, как краудсорсинг, для достижения целей маркировки. Примечательно, что первое делает возможным второе.

Во-первых, как мы слышали, это обещание чего-то значимого и полезного для населения в целом, что может мотивировать высококвалифицированных специалистов больше, чем деньги и продвижение по службе. Ольга из Толока объясняет, что по мере развития индустрии искусственного интеллекта модели машинного обучения будут требовать все более сложных данных, которые требуют от этикетировщиков гораздо большего, чтобы они могли выполнять сложные задачи. Достаточно скоро мы достигнем точки, когда высококвалифицированные исполнители станут необходимым условием для маркировки данных в определенных областях. К счастью, квалифицированные специалисты готовы внести свой вклад, если миссия того стоит.

Последним примером является Инициатива 1+ миллионов геномов, которая пытается объединить несколько стран, чтобы построить высококачественную европейскую сеть национальных геномных эталонных когорт. Это часть Европейского плана по борьбе с раком, который заключается в обмене помеченными данными, хотя и не обязательно для целей создания ИИ. Когда дело доходит до ИИ, то же самое объединение профессионалов очень применимо, и краудсорсинг может предложить простую и надежную методологию, чтобы воплотить это видение в реальность. Ольга также утверждает, что успешный юрист, например, не согласится тратить весь свой день на маркировку данных, но он может потратить часть своего дня на это ради общественно справедливого дела. Кроме того, это гораздо более вероятно, если эти данные в конечном итоге устранят более рутинные части их собственной работы за счет внедрения ИИ. Иными словами, социально ответственный аспект их вклада становится тем более весомым, если он помогает всем, в том числе и самим профессионалам.

Во-вторых, социальная ответственность также распространяется на краудсорсинговые платформы, которые нанимают специалистов по маркировке данных. Это сводится к предоставлению возможностей получения дохода тем, кто испытывает финансовые трудности, а именно странам с низким ВВП на душу населения в Африке, Азии и Латинской Америке. Опытный этикетировщик из Индонезии Нови Листьянингрум, аспирант Института Кесениан Джакарта, подтверждает это, объясняя, что Толока — это место, где она может применить и даже улучшить свои знания в качестве промышленного дизайнера, а также хорошо заработать на процесс.

По данным Forbes, эту социально ответственную позицию разделяют и другие авторитетные компании, в том числе Sama из Силиконовой долины, которая использует подход человек в цикле к маркировке данных и специально ищет маркировщиков данных в развивающихся странах. . В результате компания может предоставить возможности людям из некоторых регионов мира с недостаточным уровнем обслуживания, включая наименее развитые страны. К их радости, лейблеры Sama могут получать ежемесячный доход, более чем в четыре раза превышающий средний местный показатель.

Окончательный вердикт

Мы слышали множество различных мнений и аргументов, пытающихся ответить на вопрос, как можно побудить экспертов из узкоспециализированных областей заниматься маркировкой данных. Все мнения и предложения можно резюмировать следующим образом:

  • Разработка ИИ в узкоспециализированных областях требует высококвалифицированных специалистов для маркировки данных.
  • Научная и медицинская области требуют огромных объемов данных для алгоритмов ML, и необходимо несколько мнений по одной и той же точке данных, чтобы считать помеченные данные проверенными и надежными.
  • Создание собственной команды таких профессионалов предлагает временное решение; однако это слишком дорого, чтобы быть коммерчески устойчивым и масштабируемым.
  • Если выбран внутренний путь, это подразумевает либо маркировку ниши, либо наем нескольких команд: по одной команде для каждой профессиональной области.
  • Тем специалистам, которые оставили свою профессиональную деятельность, чтобы полностью посвятить себя маркировке данных, необходимо быть в курсе последних инноваций и изменений, затрагивающих их отрасли, чтобы поддерживать конкурентное преимущество.
  • Маркировка неполный рабочий день и на рабочем месте может быть более устойчивым вариантом для маркировки данных в узкоспециализированных областях.
  • Тем, кто готовится стать высококвалифицированными специалистами (т.е. студентам), могут быть предложены практические часы для маркировки данных в обмен на академические кредиты.
  • Некоторые специалисты в таких областях, как медицина, уже ежедневно обрабатывают данные: нужно заставить их поделиться своими открытиями, предложив им в будущем помощь ИИ, чтобы освободить их от рутинных задач.
  • Устоявшихся специалистов на Западе можно соблазнить маркировать данные не деньгами или продвижением по службе, а, скорее, повышением общественной осведомленности и просьбой отдать их сообществу. Это можно (и нужно) сделать в сочетании с предыдущим шагом.
  • Платформы для маркировки данных/краудсорсинга также должны быть социально ответственными, предлагая возможности для краудфандинга в бедных регионах мира и борясь там с бедностью.
  • Краудсорсинг может объединить региональные сообщества для достижения общей цели устойчивого управления данными, разработки ИИ и последующего междисциплинарного научного прогресса.