Команда Mahout k-means кластеризации: проблемы с пространством в куче

Я пытаюсь выполнить кластеризацию k-средних, используя mahout для набора данных объемом 300 МБ, содержащего только числовые значения. Но у меня заканчивается память в команде k-means после второй итерации. Почему размер увеличивается после каждой итерации? Как я могу решить эту проблему?


person user3036420    schedule 27.11.2013    source источник
comment
вместо этого вы можете попробовать использовать scikit-learn, так как ваши данные не очень большие   -  person Jeffrey04    schedule 29.09.2016


Ответы (1)


Не используйте Mahout для небольших наборов данных. Просто не надо.

300 МБ легко умещаются в оперативной памяти любого современного компьютера. Реализация в памяти (возможно, попробуйте ELKI) легко превзойдет Mahout, потому что у него нет накладных расходов Map Reduce.

Hadoop не является универсальным решением. Это решение суперразмера, и у вас нет данных суперразмера.

Есть ли шанс, что вы используете даже не настоящий кластер, а виртуальные машины? Возможно, у вас слишком мало места на диске или памяти, или ваш кластер плохо сконфигурирован.

person Has QUIT--Anony-Mousse    schedule 27.11.2013
comment
Я использую сам кластер, и фактический размер данных довольно велик. мой вопрос: есть ли способ как-то увеличить пространство кучи? почему размер увеличивается после каждой итерации k-средних? - person user3036420; 27.11.2013
comment
Предполагается, что картограф использует постоянный объем памяти. Он должен хранить средние значения кластера и одну точку данных. Где возникает ваша ошибка на самом деле? Картограф? Перемешать? Уменьшать? - person Has QUIT--Anony-Mousse; 27.11.2013