Наборы данных, золото машинного обучения

В этой статье я собираюсь изучить машинное обучение, но если вы новичок в этом, я рекомендую вам взглянуть на статью @ ageitgey Машинное обучение - это весело!

В эпоху подключений данные, которые мы можем собирать от пользователей, - это золото Интернета.
Компании и рекламодатели обмениваются частями нашей жизни в виде файлов cookie, предпочтений, привычек просмотра и журналов.

После появления таких модных словечек, как Big Data, Data Mining, Data Analytic в последние несколько лет, у нас теперь есть машинное обучение и глубокое обучение.

Вот два быстрых определения, поэтому мы уверены, что говорим об одном и том же:

Глобальный институт McKinsey определяет большие данные как

Наборы данных, размер которых превышает возможности типичных программных инструментов баз данных для сбора, хранения, управления и анализа.

Машинное обучение, по определению Тома М. Митчелла, - это

Считается, что компьютерная программа учится на опыте E в отношении некоторого класса задач T и показателя производительности P, если ее производительность при выполнении задач в T, измеренная с помощью P, улучшается с опытом E.

Связь между большими данными и машинным обучением проста: если у вас есть данные (будь то выходные данные датчиков робота, запросы пользователей, фотографии, звуки ...), вы можете научиться распознавать в них закономерности и, таким образом, предсказывать или классифицировать эти закономерности.

Итак, в предыдущем определении машинного обучения опыт E на самом деле является данными.

Два типа данных

Есть два типа данных: без ярлыка и с ярлыком.

Немаркированные данные (о которых мы говорим с большими данными) обычно обрабатываются с помощью неконтролируемого машинного обучения (UML) для их кластеризации или поиска шаблонов, которые будут полезны для дальнейшего использования этой информации. Другими словами, UML использует немаркированные данные, чтобы сообщить нам, где в них искать и что мы можем из них получить.

Напротив, помеченные данные ... ну, помечены, что означает, что мы уже знаем, чего хотим от них и как их использовать. В этом случае контролируемое машинное обучение (SML) поможет нам классифицировать неизвестный запрос, который мы получаем.

Помимо типа набора данных, который им требуется, машинное обучение без учителя и машинное обучение с учителем различаются объемом информации, который им необходим для правильной работы.
Фактически, поскольку UML не имеет доступа к данным с тегами, он требует огромных объемов информации для выявлять и анализировать закономерности.
А поскольку SML уже помечает данные, что делает их более ценными как надежный источник, для него требуется гораздо меньше знаний.

Я сделаю здесь паузу, чтобы правильно проиллюстрировать свою точку зрения. Представьте, что два человека осваивают новый навык, например выдувание стекла:
С одной стороны, первый решил научиться самостоятельно, используя свои инструменты. Он потратит много времени на практику, неудачи и попытки создать качественное стекло.
С другой стороны, второму помогает мастер-стеклодув, который учит его всему. правильные способы изготовления стакана.

Совершенно очевидно, что учиться у самого мастера быстрее, чем учиться в одиночку, потому что вам нужно гораздо больше времени, чтобы учиться на собственных ошибках.

Алгоритм SML нуждается в надежном источнике знаний для создания своей модели: наборе данных о золоте. Он называется «золотым набором данных», потому что все записи в нем должны быть действительными и используются для построения архитектуры представления данных, имеющихся в алгоритме.

От немаркированного к помеченному

Вы поняли, чем лучше набор данных по золоту, тем лучше результат.

Основная проблема заключается в том, что процесс преобразования необработанных данных в помеченные наборы данных действительно требует много времени и ресурсов, потому что вам нужно просмотреть каждую строку ваших данных и пометить ее вручную.
Таким образом, каждый сохраняет свой собственный набор данных. в секрете, чтобы сохранить преимущество перед другими.

И это огромная проблема для разработчиков, которые хотят попробовать поиграть с машинным обучением, потому что большинство необходимых вам наборов данных либо дороги, либо просто недоступны.

Тем не менее, все еще можно найти конкретный целевой набор данных, поступающий из конференций и общих задач, таких как CONLL или MUC. Сообщество также прилагает усилия для создания форматированных баз данных: DBpedia или Freebase.

Сообщество - это ключ

Для нас способ создания идеального набора данных о золоте - это позволить каждому использовать его и создавать. Объединив разработчиков, использующих разные языки и представителей разных культур, мы можем создать сообщество, которое будет добровольно участвовать в создании ИИ завтрашнего дня.

Википедия помешала обмену знаниями, позволив людям бесплатно добавлять, обновлять и обращаться к знаниям. 42 (французская школа, обучающая разработчиков) решила побудить своих учеников работать в группе с помощью метода, называемого взаимное обучение, что полностью противоположно нынешней образовательной модели, где совместное использование является обманом.

Это то, что мы предлагаем, давайте все обманем, чтобы создать лучший разговорный ИИ!

Пол РЕНВОАЗ - Recast.AI

Этот пост изначально был опубликован в нашем блоге

Если вам понравился этот материал, вам также может понравиться: От контекста к пониманию пользователя

Наборы данных, золото машинного обучения

Два типа данных

От немаркированного к помеченному

Сообщество - это ключ

Похожие вопросы