Команда Mahout k-means кластеризации: проблемы с пространством в куче

Я пытаюсь выполнить кластеризацию k-средних, используя mahout для набора данных объемом 300 МБ, содержащего только числовые значения. Но у меня заканчивается память в команде k-means после второй итерации. Почему размер увеличивается после каждой итерации? Как я могу решить эту проблему?

user3036420 27.11.2013 источник

comment

вместо этого вы можете попробовать использовать scikit-learn, так как ваши данные не очень большие - Jeffrey04 29.09.2016

Ответы (1)

arrow_upward
1
arrow_downward

Не используйте Mahout для небольших наборов данных. Просто не надо.

300 МБ легко умещаются в оперативной памяти любого современного компьютера. Реализация в памяти (возможно, попробуйте ELKI) легко превзойдет Mahout, потому что у него нет накладных расходов Map Reduce.

Hadoop не является универсальным решением. Это решение суперразмера, и у вас нет данных суперразмера.

Есть ли шанс, что вы используете даже не настоящий кластер, а виртуальные машины? Возможно, у вас слишком мало места на диске или памяти, или ваш кластер плохо сконфигурирован.

Has QUIT--Anony-Mousse 27.11.2013

comment

Я использую сам кластер, и фактический размер данных довольно велик. мой вопрос: есть ли способ как-то увеличить пространство кучи? почему размер увеличивается после каждой итерации k-средних? - user3036420; 27.11.2013

comment

Предполагается, что картограф использует постоянный объем памяти. Он должен хранить средние значения кластера и одну точку данных. Где возникает ваша ошибка на самом деле? Картограф? Перемешать? Уменьшать? - Has QUIT--Anony-Mousse; 27.11.2013

Команда Mahout k-means кластеризации: проблемы с пространством в куче

Ответы (1)

Похожие вопросы