Mahout k-означава команда за клъстериране: изправена пред проблеми с пространството на купчина

Опитвам се да извърша клъстериране на k-средства, използвайки mahout върху набор от данни от 300 MB, съдържащ само числови стойности. Но ми изчерпва паметта в командата k-means след втората итерация. Защо размерът се увеличава след всяка итерация? Как мога да разреша този проблем?


person user3036420    schedule 27.11.2013    source източник
comment
може да опитате да използвате scikit-learn вместо това, тъй като вашите данни не са много големи   -  person Jeffrey04    schedule 29.09.2016


Отговори (1)


Не използвайте Mahout за малки набори от данни. Просто недей

300 MB лесно се побират в основната памет на всеки съвременен компютър. Внедряване в паметта (може би опитайте ELKI) лесно ще надмине Mahout, защото няма режийните разходи на Map Reduce.

Hadoop не е универсално решение. Това е решението за супер размер и нямате данни за супер размер.

Има ли шанс дори да не използвате истински клъстер, а виртуални машини? Може да имате твърде малко дисково пространство или присвоена памет или вашият клъстер не е добре конфигуриран.

person Has QUIT--Anony-Mousse    schedule 27.11.2013
comment
Използвам самия клъстер и действителният размер на данните е доста голям. въпросът ми е има ли някакъв начин да се увеличи пространството на купчината по някакъв начин? защо размерът се увеличава след всяка итерация на k-средствата? - person user3036420; 27.11.2013
comment
Предполага се, че картографът използва постоянно количество памет. Трябва да съхранява средствата на клъстера и една точка от данни. Къде наистина възниква грешката ви? Картограф? Разбъркване? Намаляване? - person Has QUIT--Anony-Mousse; 27.11.2013