Я пытаюсь выполнить кластеризацию k-средних, используя mahout для набора данных объемом 300 МБ, содержащего только числовые значения. Но у меня заканчивается память в команде k-means после второй итерации. Почему размер увеличивается после каждой итерации? Как я могу решить эту проблему?
Команда Mahout k-means кластеризации: проблемы с пространством в куче
comment
вместо этого вы можете попробовать использовать scikit-learn, так как ваши данные не очень большие
- person Jeffrey04   schedule 29.09.2016
Ответы (1)
Не используйте Mahout для небольших наборов данных. Просто не надо.
300 МБ легко умещаются в оперативной памяти любого современного компьютера. Реализация в памяти (возможно, попробуйте ELKI) легко превзойдет Mahout, потому что у него нет накладных расходов Map Reduce.
Hadoop не является универсальным решением. Это решение суперразмера, и у вас нет данных суперразмера.
Есть ли шанс, что вы используете даже не настоящий кластер, а виртуальные машины? Возможно, у вас слишком мало места на диске или памяти, или ваш кластер плохо сконфигурирован.
person
Has QUIT--Anony-Mousse
schedule
27.11.2013
Я использую сам кластер, и фактический размер данных довольно велик. мой вопрос: есть ли способ как-то увеличить пространство кучи? почему размер увеличивается после каждой итерации k-средних?
- person user3036420; 27.11.2013
Предполагается, что картограф использует постоянный объем памяти. Он должен хранить средние значения кластера и одну точку данных. Где возникает ваша ошибка на самом деле? Картограф? Перемешать? Уменьшать?
- person Has QUIT--Anony-Mousse; 27.11.2013