Использование модели смеси Гаусса для помеченных и немаркированных данных в обучении scikit?

У меня есть данные, некоторые из которых помечены, а некоторые нет. Мне нужно применить алгоритм максимизации ожидания. Можно ли применить его в Sci-kit Learn? Любой пример помеченных + немаркированных экземпляров будет полезен.


person user2793286    schedule 01.04.2015    source источник


Ответы (1)


Не совсем. Scikit-learn предоставляет больше алгоритмов черного ящика. GMM обычно не рассматриваются как контролируемые модели. Однако написать EM самостоятельно должно быть довольно просто. Вы можете попытаться взломать реализацию sklearn, но в этом случае написание собственной может быть проще.

person Andreas Mueller    schedule 01.04.2015
comment
Вопрос ОП немного расплывчатый, но что плохого в использовании scikits гауссовой смешанной модели? Я предполагаю, что помеченные данные OP являются его тренировочными данными и реализуют изученную модель на немаркированных примерах? - person AGS; 02.04.2015
comment
модуль GMM не контролируется и не принимает никаких меток при установке. - person Andreas Mueller; 02.04.2015
comment
Но если вы не пропустите ни одного класса в размеченных данных, тогда вы знаете, сколько состояний нужно обучить модели, верно? - person AGS; 02.04.2015
comment
Да, но вы не используете информацию на этикетке. - person Andreas Mueller; 02.04.2015
comment
На самом деле вы можете подогнать GMM, используя фиксированные индикаторы вместе с данными без индикаторов, чтобы изучить модель. Я думал, что оп спрашивал об этом. - person Andreas Mueller; 02.04.2015
comment
Хорошо, конечно .. Спасибо .. Реализация EM кажется простой. - person user2793286; 03.04.2015