Что общего между шеф-поваром и специалистом по данным?

Вы чувствуете себя очень голодным. Вы купили список ингредиентов в продуктовом магазине, чтобы приготовить вкусную еду на вечер. Вы начинаете готовить, добавляя различные ароматизаторы, чтобы оживить блюдо. Но вскоре поджидает проблема, которая испортит настроение на весь вечер.

Когда еда готова, вы откусываете первый кусочек, но понимаете, что что-то не так. На вкус «плохой». И тогда вы понимаете, что некоторые ингредиенты, использованные при приготовлении еды, были низкого качества, в результате чего вся еда не получилась такой, как вы надеялись.

Давайте применим ту же аналогию к ландшафту науки о данных. Здесь еда относится к модели машинного обучения, которую вы разрабатываете, а ингредиенты относятся к данным, которые вы используете для ввода в модель.

Если данные будут некачественными, такими будут и модель, а, следовательно, и прогнозы. В мире компьютеров это называется МУСОР ВНУТРИ, МУСОР НА ВЫХОДЕ.

Если вы все еще не знаете, как начать работу с машинным обучением без программирования, эта статья поможет вам.

У вас есть нужные данные, но вы все еще ищете подходящую платформу машинного обучения? Вы попали в нужное место. Пробная версия AI & Analytics бесплатно на 2 недели!

Сначала детектив, потом специалист по данным

Если бы мудрость была молода, она посоветовала бы вам исследовать качество ваших данных, прежде чем создавать какую-либо модель машинного обучения. Прежде чем взять на себя роль специалиста по данным, вы можете надеть шляпу детектива, чтобы исследовать и изучить качество данных, находящихся во внутренних системах вашей компании. Вы также должны быть уверены, что ваша компания действительно готова взяться за проект AI/ML.

Следите за этими наиболее распространенными проблемами качества данных

Мы рассмотрим некоторые из наиболее распространенных проблем с качеством данных, с которыми вы можете столкнуться при работе с наборами данных реального мира. Цель здесь не в том, чтобы пролить свет на то, почему возникают эти проблемы и что можно сделать для их решения, а просто в том, чтобы дать обзор наиболее распространенных проблем, с которыми вы можете столкнуться и на которые нужно обратить внимание. Некоторые из этих проблем можно устранить с помощью процесса очистки данных.

Чтобы проиллюстрировать нашу точку зрения, у нас есть таблица ниже, в которой перечислены имена сотрудников, работающих в компании, их возраст, отдел, а также даты начала и окончания их контрактов.

Прежде чем читать дальше, мы предлагаем вам взглянуть на таблицу и попытаться выяснить, можете ли вы обнаружить какие-либо проблемы с качеством данных. (Вы заметили их всех?)

1. Отсутствующие данные

Как вы можете видеть в таблице выше, есть много значений NULL, что означает отсутствие данных. Упрощенным подходом было бы игнорирование всех таких строк, в которых есть пропущенные значения, но компромисс заключается в том, что это приведет к потере информации, которая могла бы помочь модели обучать и изучать основные тенденции и закономерности в данных.

2. Неверные данные

Обратите внимание на последнюю строку таблицы. Заметили что-нибудь странное?

Ah37@ не соответствует стандартам, которым должно соответствовать имя. Столбец Name должен состоять только из алфавитов, но Ah37@ содержит алфавиты, цифры и буквенно-цифровые символы.

Это пример недопустимых данных, когда запись не соответствует типу данных столбца.

3. Несовместимые форматы данных

Такие проблемы обычно возникают при работе со столбцами даты и времени. Посмотрите на даты contract_start и contract_end в последней строке и сравните их с другими значениями.

Даты во всех других строках соответствуют формату даты ГГГГ-ММ-ДД, тогда как последняя строка имеет формат ММ-ДД-ГГГГ. Все даты должны быть в одном формате.

Другой пример противоречивых данных можно найти, взглянув на первые две строки таблицы. Обе строки относятся к сотруднику Джон, и данные во всех столбцах кажутся одинаковыми, за исключением одного столбца: Отдел.

В первой строке мы видим, что Джон работает в сфере продаж, но если мы просмотрим вторую строку, окажется, что Джон работает в сфере информационных технологий. Так какой из них правильный? Сотрудник не может работать в двух разных отделах. Когда данные компилируются или агрегируются из нескольких систем, работающих изолированно, такие проблемы возникают.

4. Дубликаты

Обратите внимание на шестой и седьмой ряды.

Они оба об одном и том же сотруднике Алексе и содержат одинаковую информацию. Это называется избыточными данными, которые необходимо проверить и удалить дубликаты, прежде чем продолжить.

5. Бизнес-логика

Внимательно посмотрите на первую строку таблицы и обратите внимание на даты Contract_start и contract_end? Находите ли вы что-нибудь особенное в этих датах?

На первый взгляд обе даты кажутся в правильном формате (ГГГГ-ММ-ДД). Но если вы присмотритесь, вы заметите, что дата начала контракта больше, чем дата окончания контракта. Это означает, что контракт Джона начался в 2021 году, но его контракт закончился в 2020 году. Это противоречит бизнес-логике, поскольку дата окончания контракта должна быть позже даты начала контракта.

Такие проверки необходимо выполнять, особенно когда речь идет о датах. Даты необходимо сравнить друг с другом, чтобы проверить, кажутся ли различия разумными. Это был относительно простой пример для иллюстрации, но в компании могут быть сценарии, в которых разные заинтересованные стороны используют разные даты для измерения KPI. В таких сценариях чрезвычайно важно, чтобы все вовлеченные заинтересованные стороны пришли к консенсусу в отношении бизнес-определений.

Заворачивать

Ежедневно генерируются огромные объемы данных, и организации сталкиваются с постоянно растущей проблемой контроля качества своих данных, иначе они не смогут раскрыть истинный потенциал своих данных для получения значимой информации. для принятия решения. Если предприятия действительно хотят быть частью происходящей революции данных, им необходимо принять своевременные меры, чтобы их данные были качественными, непротиворечивыми, точными и актуальными.

У вас есть нужные данные, но вы не знаете, как начать использовать машинное обучение для прогнозирования? Без проблем! Закажите у нас бесплатную демоверсию, и мы поможем вам начать работу!

Первоначально опубликовано на https://www.pi.exchange.