Mahout k-означава команда за клъстериране: изправена пред проблеми с пространството на купчина

Опитвам се да извърша клъстериране на k-средства, използвайки mahout върху набор от данни от 300 MB, съдържащ само числови стойности. Но ми изчерпва паметта в командата k-means след втората итерация. Защо размерът се увеличава след всяка итерация? Как мога да разреша този проблем?

user3036420 27.11.2013 източник

comment

може да опитате да използвате scikit-learn вместо това, тъй като вашите данни не са много големи - Jeffrey04 29.09.2016

Отговори (1)

arrow_upward
1
arrow_downward

Не използвайте Mahout за малки набори от данни. Просто недей

300 MB лесно се побират в основната памет на всеки съвременен компютър. Внедряване в паметта (може би опитайте ELKI) лесно ще надмине Mahout, защото няма режийните разходи на Map Reduce.

Hadoop не е универсално решение. Това е решението за супер размер и нямате данни за супер размер.

Има ли шанс дори да не използвате истински клъстер, а виртуални машини? Може да имате твърде малко дисково пространство или присвоена памет или вашият клъстер не е добре конфигуриран.

Has QUIT--Anony-Mousse 27.11.2013

comment

Използвам самия клъстер и действителният размер на данните е доста голям. въпросът ми е има ли някакъв начин да се увеличи пространството на купчината по някакъв начин? защо размерът се увеличава след всяка итерация на k-средствата? - user3036420; 27.11.2013

comment

Предполага се, че картографът използва постоянно количество памет. Трябва да съхранява средствата на клъстера и една точка от данни. Къде наистина възниква грешката ви? Картограф? Разбъркване? Намаляване? - Has QUIT--Anony-Mousse; 27.11.2013

Mahout k-означава команда за клъстериране: изправена пред проблеми с пространството на купчина

Отговори (1)

Подобни въпроси