Поскольку в основе машинного обучения лежат данные, производительность всех алгоритмов машинного обучения неизбежно напрямую зависит от качества входных данных. Поговорка Garbage in-Garbage out применима и к машинному обучению: использование данных плохого качества может ввести в заблуждение процесс обучения и привести к неточным моделям, увеличению времени обучения и, в конечном итоге, плохим результатам. С другой стороны, алгоритмы машинного обучения, обученные на точных, чистых и хорошо размеченных данных, могут определять закономерности, скрытые в данных, и создавать модели, обеспечивающие прогнозы с высокой точностью. Именно по этой причине очень важно понимать ввод, обнаруживать и решать любые проблемы, влияющие на его качество, прежде чем вводить ввод в алгоритм машинного обучения.

В оставшейся части этой статьи мы обсудим, какие показатели вы можете использовать для оценки качества данных и способы решения любых обнаруженных проблем.

Оценка качества данных

Существует множество аспектов качества данных и различных параметров, которые можно учитывать при оценке имеющихся данных. Некоторые из наиболее распространенных аспектов, исследуемых в процессе оценки качества данных, следующие:

Количество пропущенных значений. Большинство реальных наборов данных содержат пропущенные значения, т. е. элементы объектов без сохраненных значений данных. Поскольку многие алгоритмы машинного обучения не поддерживают пропущенные значения, обнаружение пропущенных значений и их правильная обработка может иметь значительное влияние.

Наличие повторяющихся значений. Дублирующиеся значения могут принимать различные форматы, например несколько записей одной и той же точки данных, несколько экземпляров всего столбца и повторение одного и того же значения в идентификаторе I.D. Переменная. Хотя повторяющиеся экземпляры могут быть действительными в некоторых наборах данных, они часто возникают из-за ошибок в процессах извлечения и интеграции данных. Следовательно, важно обнаружить любые повторяющиеся значения и решить, соответствуют ли они недопустимым значениям (истинные дубликаты) или составляют действительную часть набора данных.

Наличие выбросов / аномалий. Выбросы - это точки данных, которые существенно отличаются от остальных данных, и они могут возникать из-за разнообразия набора данных или из-за ошибок / ошибок. Поскольку алгоритмы машинного обучения чувствительны к диапазону и распределению значений атрибутов, определение выбросов и их природы важно для оценки качества набора данных.

Наличие недопустимых / неверно отформатированных значений. Наборы данных часто содержат несовместимые значения, например переменные с разными единицами измерения в точках данных и переменные с неправильным типом данных. Например, часто бывает, что некоторые специальные числовые переменные, такие как проценты и дроби, по ошибке сохраняются в виде строк, и следует обнаруживать и преобразовывать такие случаи, чтобы алгоритм машинного обучения мог работать с фактическими числами.

Повышение качества данных

После изучения данных для оценки их качества и получения более глубокого понимания набора данных важно решить все обнаруженные проблемы, прежде чем переходить к следующим этапам конвейера машинного обучения. Ниже мы приводим некоторые из наиболее распространенных способов решения таких проблем.

Обработка отсутствующих значений. Существуют разные способы работы с отсутствующими данными в зависимости от их количества и типа данных:

  • Удаление отсутствующих данных. Если количество точек данных, содержащих отсутствующие значения, невелико, а размер набора данных достаточно велик, вы можете удалить такие точки данных. Кроме того, если переменная содержит очень большое количество пропущенных значений, ее можно удалить.
  • Вменение. Если количество пропущенных значений недостаточно мало, чтобы их можно было удалить, и недостаточно велико, чтобы составлять существенную часть записей переменных, вы можете заменить отсутствующие значения в числовой переменной средним / медианным значением не- пропущенные записи и пропущенные значения в категориальной переменной с режимом, который является наиболее частой записью переменной.

Работа с повторяющимися значениями. Истинные дубликаты, т. е. экземпляры одной и той же точки данных, обычно удаляются. Таким образом устраняется увеличение веса выборки в этих точках и снижается риск любого искусственного завышения показателей производительности.

Работа с выбросами. Как и в случае с пропущенными значениями, общие методы обработки обнаруженных выбросов включают удаление выбросов и вменение новых значений. Однако, в зависимости от контекста набора данных и количества выбросов, сохранение выбросов без изменений может быть наиболее подходящим способом действий. Например, сохранение выбросов может быть предложено в наборе данных, где количество выбросов не очень мало, поскольку они могут быть необходимы для правильного понимания набора данных.

Преобразование неверно отформатированных значений. Все неверно сформированные значения преобразуются и сохраняются с правильным типом данных. Например, числовые переменные, которые хранятся в виде строк, преобразуются в соответствующие числа, а строки, представляющие даты, сохраняются как объекты даты. Кроме того, важно преобразовать и гарантировать, что все записи в переменной соответствуют одной и той же единице, иначе сравнения между записями переменных не будут соответствовать истинным сравнениям.

Как мы видели, понимание качества входных данных и подготовка набора данных для решения любых проблем необходимы для того, чтобы алгоритмы машинного обучения давали точные прогнозы. Хотя они могут быть трудоемкими, очень важно включить их в конвейер машинного обучения, поскольку в противном случае решения могут быть ненадежными.

Мы в TurinTech AI, как специалисты по обработке данных и сами исследователи, понимаем, что очистка и оценка качества данных могут занять очень много времени и утомительно. Таким образом, при создании EvoML, платформы сквозной оптимизации ИИ, мы позаботились о том, чтобы включить функцию, с помощью которой специалисты по обработке данных могут автоматически проверять качество своих данных и применять соответствующие методы, чтобы сделать их готовыми для ИИ. Как вы можете видеть на Рисунке 1, EvoML автоматически оценивает качество входных данных, предоставляет отчеты о качестве данных с использованием простых для понимания тегов и статистики и решает любые обнаруженные проблемы. С EvoML подготовка данных может быть быстрее и проще, что позволит вам тратить больше времени на понимание и преобразование данных для повышения производительности модели.

Об авторе

Д-р Кристалла Павлоу | Исследовательская группа TurinTech

Кандидат компьютерных наук со степенью магистра теоретической информатики и степени в области электротехники и вычислительной техники. Любит читать и ходить в походы.

О компании TurinTech

TurinTech - лидер в области оптимизации искусственного интеллекта. TurinTech дает компаниям возможность создавать эффективный и масштабируемый ИИ за счет автоматизации всего жизненного цикла науки о данных с помощью многоцелевой оптимизации. TurinTech позволяет организациям проводить трансформацию ИИ с минимальными человеческими усилиями, масштабно и быстро.

TurinTech - AI. Оптимизировано.

Узнайте больше о TurinTech
Следите за нами в социальных сетях: LinkedIn и Twitter