Какая задача интеллектуального анализа данных для извлечения уникального экземпляра

Я работаю с интеллектуальным анализом данных и знаком с задачами классификации, кластеризации и регрессии. В классификации может быть много экземпляров (например, животные), их признаков (например, количество ног) и класс (например, млекопитающее, рептилия).

Но что мне нужно сделать, так это, учитывая некоторые атрибуты, включая атрибут класса, определить, какой уникальный экземпляр я имею в виду (например, жираф). Я могу предоставить все известные атрибуты, которые у меня есть, и, если модель не может найти ответ, она может запросить другой атрибут — точно так же, как в стиле игры из 20 вопросов.

Итак, мой вопрос: есть ли у этой конкретной задачи имя? Это похоже на классификацию, где класс уникален для каждого экземпляра, но это не подходит для текущих моделей обучения, за исключением, возможно, модели дерева решений.


person Chaotic    schedule 28.04.2014    source источник


Ответы (2)


Ваши входные данные, обозначаемые features в машинном обучении, представляют собой кортежи видов (что, я думаю, вы подразумеваете под «экземпляром») и физические атрибуты. Ваши результаты — более широкие таксономические ранги. Таким образом, присвоение одного каждому входу является проблемой классификации. Поскольку ваши признаки неполны, вы хотите выполнить... классификацию с неполными данными или вписать отсутствующие признаки. Поиск по этим терминам даст вам достаточно лидов.

(А другая задача правильно называется кластеризация.)

person Emre    schedule 28.04.2014
comment
Я обновил свой вопрос с этими несколькими изменениями термина. Но я не думаю, что это именно проблема классификации, потому что вы не можете научить модель предсказывать, к какому классу принадлежит новый экземпляр (кортеж), если атрибут класса уникален (например, идентификатор). - person Chaotic; 29.04.2014
comment
Разве атрибут класса не является таксономической группой, относящейся к виду? Я не понимаю, что вы имеете в виду, когда говорите, что это уникально. Установка вопросов, направляющих учащегося, напоминает активное обучение. - person Emre; 29.04.2014

ИМХО, вы ищете просто дерево решений.

За исключением того, что вы тренируете его не на своем категориальном атрибуте (ваш «класс»), а на индивидуальной метке экземпляра.

Однако вам нужно тщательно выбирать меру разделения, так как многие меры относятся к размерам классов, и все ваши классы теперь имеют размер 1. Поиск хорошего разбиения дерева решений может потребовать планирования нескольких разбиений заранее, чтобы получить оптимально сбалансированное дерево. Подход, подобный случайному лесу, может быть полезен для повышения шансов найти хорошее дерево.

person Has QUIT--Anony-Mousse    schedule 01.05.2014