Многие специалисты по данным утверждают, что около 80% своего времени тратится на предварительную обработку данных, и не зря; сбор, аннотирование и форматирование данных - важнейшие задачи машинного обучения. Эта статья поможет вам понять важность этих задач, а также познакомится с методами и советами других исследователей.

Ниже мы выделим научные статьи авторитетных университетов и исследовательских групп по различным темам данных обучения. Темы включают важность высококачественных аннотаторов-людей, способы создания больших наборов данных за относительно короткое время, способы безопасной обработки обучающих данных, которые могут включать личную информацию, и многое другое.

1. Насколько важны аннотаторы-люди?

В этой статье из первых рук показано, как качество аннотатора может сильно повлиять на ваши обучающие данные и, в свою очередь, на точность вашей модели. В этом проекте классификации настроений исследователи из Института Йожефа Стефана анализируют большой набор данных твитов с аннотациями настроений на нескольких языках. Интересно то, что результаты проекта показывают, что статистически значительных различий между характеристиками топовых классификационных моделей не было. Напротив, качество аннотаторов-людей было более важным фактором, определявшим точность модели.

Для оценки своих аннотаторов команда использовала как процессы согласования между аннотаторами, так и процессы самосогласования. В своем исследовании они обнаружили, что, хотя самосогласование является хорошей мерой для отсеивания неэффективных аннотаторов, согласие между аннотаторами можно использовать для измерения объективной сложности задачи.

Исследовательский документ: Многоязычная классификация настроений в Твиттере: роль аннотаторов-людей

Авторы / Соавторы: Игорь Мозетич, Миха Гркар, Ясмина Смаилович (все авторы из Института Йозефа Стефана)

Дата публикации / последнего обновления: 5 мая 2016 г.

2. Обзор сбора данных для машинного обучения.

Этот документ, подготовленный исследовательской группой Корейского передового института науки и технологий, идеально подходит для начинающих, которые хотят лучше понять ландшафт сбора, управления и аннотаций данных. Кроме того, в документе вводятся и объясняются процессы сбора данных, увеличения данных и генерации данных.

Для тех, кто плохо знаком с машинным обучением, этот документ - отличный ресурс, который поможет вам узнать о многих распространенных методах создания высококачественных наборов данных, используемых сегодня в полевых условиях.

Исследовательская статья: Обзор сбора данных для машинного обучения

Авторы / авторы: Юджи Ро, Геон Хео, Стивен Ыйджонг Ван (все авторы из KAIST)

Дата публикации / последнего обновления: 12 августа 2019 г.

3. Использование слабого контроля для маркировки больших объемов данных

Для многих проектов машинного обучения поиск и аннотирование больших наборов данных занимает много времени. В этой статье исследователи из Стэнфордского университета предлагают систему для автоматического создания наборов данных с помощью процесса, называемого «программированием данных».

Приведенная выше таблица была взята непосредственно из статьи и показывает точность, отзывчивость и оценки F1 с использованием программирования данных (DP) по сравнению с подходом ITR с дистанционным надзором.

Предлагаемая система использует слабые стратегии контроля для маркировки подмножеств данных. Полученные метки и данные, вероятно, будут иметь определенный уровень шума. Однако затем команда удаляет шум из данных, представляя процесс обучения в виде генеративной модели, и представляет способы изменения функции потерь, чтобы гарантировать, что она «учитывает шум».

Исследовательская статья: Программирование данных: быстрое создание больших обучающих наборов

Авторы / авторы: Александр Ратнер, Кристофер Де Са, Сен Ву, Даниэль Сельсам, Кристофер Ре (все авторы из Стэнфордского университета)

Дата публикации / последнего обновления: 8 января 2017 г.

4. Как использовать полу-контролируемую передачу знаний для обработки информации, позволяющей установить личность (PII)

В этой статье, разработанной исследователями из Google и Государственного университета Пенсильвании, представлен подход к работе с конфиденциальными данными, такими как истории болезни и личная информация пользователей. Этот подход, известный как Private Aggregation of Teacher Ensembles (PATE), может быть применен к любой модели и позволил достичь современного компромисса между конфиденциальностью и полезностью наборов данных MNIST и SVHN.

Однако, как утверждает специалист по анализу данных Алехандро Аристизабаль в своей статье, одна из основных проблем с PATE заключается в том, что структура требует, чтобы модель ученика делилась своими данными с моделями учителя. В этом процессе конфиденциальность не гарантируется. Поэтому Аристизабал предлагает дополнительный шаг, который добавляет шифрование к набору данных модели ученика. Вы можете прочитать об этом процессе в его статье Как сделать PATE Bidirectionally Private, но, пожалуйста, сначала убедитесь, что вы прочитали исходный исследовательский документ.

Исследовательский документ: Полуконтролируемая передача знаний для глубокого обучения на основе данных частного обучения

Авторы / соавторы: Николас Папернот (Государственный университет Пенсильвании), Мартин Абади (Google Brain), Ульфар Эрлингссон (Google), Ян Гудфеллоу (Google Brain), Кунал Талвар (Google Brain)

Дата публикации / последнего обновления: 3 марта 2017 г.

5. Расширенное расширение данных для полу-контролируемого обучения и трансферного обучения

Одна из самых больших проблем, с которыми сегодня сталкиваются специалисты по данным, - это получение доступа к обучающим данным. Можно утверждать, что одна из самых больших проблем глубокого обучения заключается в том, что большинству моделей требуются большие объемы помеченных данных для работы с высокой степенью точности. Чтобы помочь в борьбе с этими проблемами, исследователи из Google и Университета Карнеги-Меллона разработали структуру для обучения моделей на существенно меньших объемах данных.

Команда предлагает использовать передовые методы увеличения данных, чтобы эффективно добавлять шум к немаркированным выборкам данных, используемым в моделях полууправляемого обучения. Удивительно, но этот фреймворк смог добиться невероятных результатов. Команда заявляет, что в наборе данных классификации текста IMDB их метод смог превзойти современные модели, обучаясь только на 20 размеченных образцах. Более того, в тесте CIFAR-10 их метод превзошел все предыдущие подходы.

Исследовательский документ: Неконтролируемое увеличение данных для обучения согласованности

Авторы / соавторы: Qizhe Xie1,2, Zihang Dai1,2, Eduard Hovy2, Minh-Thang Luong1, Quoc V. Le1 (1Google Research, Brain Team, 2Carnegie Mellon University)

Дата публикации / последнего обновления: 30 сентября 2019 г.

Надеюсь, эти статьи по машинному обучению, посвященные задачам обучение и обработка данных, помогли вам узнать что-то новое, что вы сможете применить в своих собственных проектах. Чтобы увидеть больше статей о машинном обучении, просмотрите наши главные новости ниже и не забудьте подписаться на меня на Medium.

Оригинальная статья опубликована с разрешения автора.