Выбор экземпляра играет важную роль в предварительной обработке данных для машинного обучения. Цель состоит в том, чтобы уменьшить объем данных, используемых для обнаружения знаний. В идеале это приведет к модели с (как минимум) такой же производительностью, как у модели, обученной на всех данных.

Большая часть этой записи в блоге, если не указано иное, взята из главы 8 García et al [1].

Цели выбора инстанса

Основная цель выбора экземпляра состоит в том, чтобы найти модель интеллектуального анализа данных, обученную на подмножестве данных DMₛ, которая работает так же хорошо, как модель, обученная на всех данных DMₜ, оцененная по заданному показателю производительности P.

В целом преследуются три цели, а именно Включение, Фокусировка и Очистка.

Включение

Несколько лет назад наборы данных, используемые для машинного обучения, были намного меньше, чем сегодня. Сегодня специалисты по данным часто сталкиваются с миллионами точек данных в отдельных наборах данных. Следовательно, чтобы подобрать осмысленные модели за разумное время, часто необходимо уменьшить количество экземпляров.

Следовательно, выбор экземпляра позволяеталгоритмам работать эффективно за счет уменьшения количества экземпляров для обучения модели.

Фокусировка

Часто наборы данных содержат информацию о конкретной области (например, о расходах на здравоохранение). Тем не менее, наука о данных часто фокусируется на определенной части предметной области (например, на расходах, связанных с мигренью). Может возникнуть необходимость сократить точки данных до определенной части, поэтому сосредоточьтесь на важных аспектах набора данных.

Уборка

Наборы данных чаще всего содержат избыточные, зашумленные и даже неверные данные. Заранее применяя методы выбора экземпляров, можно улучшить качество данных, очистив данные и удалив избыточные точки данных.

Прототип против выбора обучающего набора

Выбор прототипа (PS) основан на выборе подмножества исходных обучающих данных и разделен на три разные категории, а именно редакционный, уплотненный и гибридный подходы [2].

Основным преимуществом, указанным в методах PS, является возможность выбора релевантных примеров без создания новых искусственных данных [2, с.418].

Алгоритмы редактирования выбирают для исключения определенных точек данных (например, зашумленных) с целью повышения общей точности алгоритма. Алгоритмы уплотнения устраняют избыточные точки данных, сохраняя при этом точность алгоритма на том же уровне. Гибридные алгоритмы объединяют два подхода [2].

Выбор тренировочного набора — это аналогичная концепция, которая больше ориентирована на расширение возможностей модели (например, точность, интерпретируемость). Большинство предлагаемых в литературе методов основаны на выборе прототипа.

Характеристики методов выбора прототипа

Направление поиска

  • Инкрементальный: начните с пустого набора и добавляйте экземпляры на основе некоторых критериев. Здесь возможно не иметь всех данных в начале, но со временем получать дополнительные данные.
  • Декрементальный: работает аналогично инкрементному, но начинает со всех экземпляров и удаляет их один за другим. Здесь все данные должны быть доступны в начале.
  • Пакет: также начинается с полного набора. Все экземпляры в наборе проверяются на соответствие какому-либо критерию. После этого все они удаляются одновременно.
  • Смешанный: начинается с непустого подмножества и может добавлять и удалять экземпляры.
  • Фиксированный: аналогичный смешанному поиску. Однако количество добавлений должно быть таким же, как количество удалений, поэтому количество экземпляров подмножества предопределено.

Тип выбора

Эти характеристики включают уже упомянутые уплотненный, редакционный и гибридный подходы. Учитывая задачу классификации, можно различать граничные точки (на границе двух групп или рядом с ней) и внутренние точки.

Алгоритмы уплотнения пытаются удалить внутренние точки, предполагая, что они не влияют на классификацию так сильно, как точки на границе или рядом с ней. Во время выбора прототипа производительность на тренировочном наборе сохраняется на постоянном уровне. Тем не менее, необходимо убедиться, что способность модели обобщать ранее невидимые тестовые данные не подвергалась негативному влиянию.

Алгоритмы Edition, напротив, удаляют пограничные точки, которые кажутся маловероятными. Поэтому цель таких алгоритмов — удалить кажущиеся зашумленными точки, тем самым сделав границу между разными группами более плавной.

Гибридныеалгоритмы сочетают в себе как редакционный, так и уплотненный подходы, чтобы создать модель с возможностью хорошего обобщения.

Примеры методов выбора прототипа

Далее будут перечислены два примера методов выбора прототипа, один алгоритм уплотнения и один алгоритм редактирования. Дополнительные примеры см. в главе 8 García et al. [1].

  1. Конденсация:Конденсированный ближайший сосед (CNN)
    CNN – это инкрементный алгоритм, начинающийся с пустого подмножества. К подмножеству добавляется одна случайная выборка каждого класса. Основное намерение состоит в том, чтобы добавить экземпляры в подмножество, чтобы ближайший сосед каждого экземпляра в обучающем наборе был того же класса, что и сам экземпляр.
    Следовательно, алгоритм перебирает все экземпляры, не входящие в подмножество, и, если экземпляр будет классифицирован неправильно, он добавляется в подмножество до тех пор, пока все не будут классифицированы правильно.
  2. Издание:отредактированный ближайший сосед (ENN)
    ENN — это декрементный алгоритм, поэтому он начинается со всех выборок и числа k. Следовательно, экземпляр будет удален, если большинство из k ближайших соседей имеют другую метку (что делает вероятность того, что точка представляет собой шум).

[1] Гарсия и др. Предварительная обработка данных в Data Mining. Справочная библиотека интеллектуальных систем, 2015 г.

[2] Гарсия и др. Выбор прототипа для классификации ближайших соседей: таксономия и эмпирическое исследование. IEEE Transactions on Pattern Analysis and Machine Intelligence 34/3: стр. 417–435. 2012.