Качество данных в машинном обучении: как оценить и улучшить?

Поскольку в основе машинного обучения лежат данные, производительность всех алгоритмов машинного обучения неизбежно напрямую зависит от качества входных данных. Поговорка Garbage in-Garbage out применима и к машинному обучению: использование данных плохого качества может ввести в заблуждение процесс обучения и привести к неточным моделям, увеличению времени обучения и, в конечном итоге, плохим результатам. С другой стороны, алгоритмы машинного обучения, обученные на точных, чистых и хорошо размеченных данных, могут определять закономерности, скрытые в данных, и создавать модели, обеспечивающие прогнозы с высокой точностью. Именно по этой причине очень важно понимать ввод, обнаруживать и решать любые проблемы, влияющие на его качество, прежде чем вводить ввод в алгоритм машинного обучения.

В оставшейся части этой статьи мы обсудим, какие показатели вы можете использовать для оценки качества данных и способы решения любых обнаруженных проблем.

Оценка качества данных

Существует множество аспектов качества данных и различных параметров, которые можно учитывать при оценке имеющихся данных. Некоторые из наиболее распространенных аспектов, исследуемых в процессе оценки качества данных, следующие:

Количество пропущенных значений. Большинство реальных наборов данных содержат пропущенные значения, т. е. элементы объектов без сохраненных значений данных. Поскольку многие алгоритмы машинного обучения не поддерживают пропущенные значения, обнаружение пропущенных значений и их правильная обработка может иметь значительное влияние.

Наличие повторяющихся значений. Дублирующиеся значения могут принимать различные форматы, например несколько записей одной и той же точки данных, несколько экземпляров всего столбца и повторение одного и того же значения в идентификаторе I.D. Переменная. Хотя повторяющиеся экземпляры могут быть действительными в некоторых наборах данных, они часто возникают из-за ошибок в процессах извлечения и интеграции данных. Следовательно, важно обнаружить любые повторяющиеся значения и решить, соответствуют ли они недопустимым значениям (истинные дубликаты) или составляют действительную часть набора данных.

Наличие выбросов / аномалий. Выбросы - это точки данных, которые существенно отличаются от остальных данных, и они могут возникать из-за разнообразия набора данных или из-за ошибок / ошибок. Поскольку алгоритмы машинного обучения чувствительны к диапазону и распределению значений атрибутов, определение выбросов и их природы важно для оценки качества набора данных.

Наличие недопустимых / неверно отформатированных значений. Наборы данных часто содержат несовместимые значения, например переменные с разными единицами измерения в точках данных и переменные с неправильным типом данных. Например, часто бывает, что некоторые специальные числовые переменные, такие как проценты и дроби, по ошибке сохраняются в виде строк, и следует обнаруживать и преобразовывать такие случаи, чтобы алгоритм машинного обучения мог работать с фактическими числами.

Повышение качества данных

После изучения данных для оценки их качества и получения более глубокого понимания набора данных важно решить все обнаруженные проблемы, прежде чем переходить к следующим этапам конвейера машинного обучения. Ниже мы приводим некоторые из наиболее распространенных способов решения таких проблем.

Обработка отсутствующих значений. Существуют разные способы работы с отсутствующими данными в зависимости от их количества и типа данных:

Удаление отсутствующих данных. Если количество точек данных, содержащих отсутствующие значения, невелико, а размер набора данных достаточно велик, вы можете удалить такие точки данных. Кроме того, если переменная содержит очень большое количество пропущенных значений, ее можно удалить.

Вменение. Если количество пропущенных значений недостаточно мало, чтобы их можно было удалить, и недостаточно велико, чтобы составлять существенную часть записей переменных, вы можете заменить отсутствующие значения в числовой переменной средним / медианным значением не- пропущенные записи и пропущенные значения в категориальной переменной с режимом, который является наиболее частой записью переменной.

Работа с повторяющимися значениями. Истинные дубликаты, т. е. экземпляры одной и той же точки данных, обычно удаляются. Таким образом устраняется увеличение веса выборки в этих точках и снижается риск любого искусственного завышения показателей производительности.

Работа с выбросами. Как и в случае с пропущенными значениями, общие методы обработки обнаруженных выбросов включают удаление выбросов и вменение новых значений. Однако, в зависимости от контекста набора данных и количества выбросов, сохранение выбросов без изменений может быть наиболее подходящим способом действий. Например, сохранение выбросов может быть предложено в наборе данных, где количество выбросов не очень мало, поскольку они могут быть необходимы для правильного понимания набора данных.

Преобразование неверно отформатированных значений. Все неверно сформированные значения преобразуются и сохраняются с правильным типом данных. Например, числовые переменные, которые хранятся в виде строк, преобразуются в соответствующие числа, а строки, представляющие даты, сохраняются как объекты даты. Кроме того, важно преобразовать и гарантировать, что все записи в переменной соответствуют одной и той же единице, иначе сравнения между записями переменных не будут соответствовать истинным сравнениям.

Как мы видели, понимание качества входных данных и подготовка набора данных для решения любых проблем необходимы для того, чтобы алгоритмы машинного обучения давали точные прогнозы. Хотя они могут быть трудоемкими, очень важно включить их в конвейер машинного обучения, поскольку в противном случае решения могут быть ненадежными.

Мы в TurinTech AI, как специалисты по обработке данных и сами исследователи, понимаем, что очистка и оценка качества данных могут занять очень много времени и утомительно. Таким образом, при создании EvoML, платформы сквозной оптимизации ИИ, мы позаботились о том, чтобы включить функцию, с помощью которой специалисты по обработке данных могут автоматически проверять качество своих данных и применять соответствующие методы, чтобы сделать их готовыми для ИИ. Как вы можете видеть на Рисунке 1, EvoML автоматически оценивает качество входных данных, предоставляет отчеты о качестве данных с использованием простых для понимания тегов и статистики и решает любые обнаруженные проблемы. С EvoML подготовка данных может быть быстрее и проще, что позволит вам тратить больше времени на понимание и преобразование данных для повышения производительности модели.

Об авторе

Д-р Кристалла Павлоу | Исследовательская группа TurinTech

Кандидат компьютерных наук со степенью магистра теоретической информатики и степени в области электротехники и вычислительной техники. Любит читать и ходить в походы.

О компании TurinTech

TurinTech - лидер в области оптимизации искусственного интеллекта. TurinTech дает компаниям возможность создавать эффективный и масштабируемый ИИ за счет автоматизации всего жизненного цикла науки о данных с помощью многоцелевой оптимизации. TurinTech позволяет организациям проводить трансформацию ИИ с минимальными человеческими усилиями, масштабно и быстро.

TurinTech - AI. Оптимизировано.

Узнайте больше о TurinTech
Следите за нами в социальных сетях: LinkedIn и Twitter

Качество данных в машинном обучении: как оценить и улучшить?

Оценка качества данных

Повышение качества данных

Об авторе

О компании TurinTech

Похожие вопросы