Подводя итог моему пониманию темы, 'фиктивное кодирование' обычно понимается как кодирование номинального атрибута с K возможными значениями в виде K-1 бинарных фиктивных значений. Использование значений K вызовет избыточность и окажет негативное влияние, например. по логистической регрессии, насколько я ее узнал. Пока мне все ясно.
Тем не менее, мне неясны два момента:
1) Принимая во внимание проблему, изложенную выше, я смущен тем, что классификатор 'Logistic' в WEKA на самом деле использует K манекенов (см. Рисунок). Почему это так?
2) Проблема возникает, как только я рассматриваю выбор атрибута. Там, где неявное значение атрибута неявно включено в случае, когда все фиктивные значения равны нулю, если все фиктивные значения фактически используются для модели, оно больше не включается явно, если отсутствует один фиктивный элемент (поскольку он не выбран при выборе атрибута). Проблема очень проста для понимания с помощью скетча, который я загрузил. Как можно решить эту проблему?
во-вторых
Изображения
Вывод WEKA: логистический алгоритм был запущен на наборе данных UCI German Credit, где возможные значения первого атрибута: A11, A12, A13, A14. Все они включены в модель логистической регрессии. http://abload.de/img/bildschirmfoto2013-089out9.png
Пример дерева решений. Эскиз, показывающий проблему запуска деревьев решений для наборов данных с экземплярами с фиктивным кодом после выбора атрибута. http://abload.de/img/sketchziu5s.jpg