Опитвам се да извърша клъстериране на k-средства, използвайки mahout върху набор от данни от 300 MB, съдържащ само числови стойности. Но ми изчерпва паметта в командата k-means след втората итерация. Защо размерът се увеличава след всяка итерация? Как мога да разреша този проблем?
Mahout k-означава команда за клъстериране: изправена пред проблеми с пространството на купчина
comment
може да опитате да използвате scikit-learn вместо това, тъй като вашите данни не са много големи
- person Jeffrey04   schedule 29.09.2016
Отговори (1)
Не използвайте Mahout за малки набори от данни. Просто недей
300 MB лесно се побират в основната памет на всеки съвременен компютър. Внедряване в паметта (може би опитайте ELKI) лесно ще надмине Mahout, защото няма режийните разходи на Map Reduce.
Hadoop не е универсално решение. Това е решението за супер размер и нямате данни за супер размер.
Има ли шанс дори да не използвате истински клъстер, а виртуални машини? Може да имате твърде малко дисково пространство или присвоена памет или вашият клъстер не е добре конфигуриран.
person
Has QUIT--Anony-Mousse
schedule
27.11.2013
Използвам самия клъстер и действителният размер на данните е доста голям. въпросът ми е има ли някакъв начин да се увеличи пространството на купчината по някакъв начин? защо размерът се увеличава след всяка итерация на k-средствата?
- person user3036420; 27.11.2013
Предполага се, че картографът използва постоянно количество памет. Трябва да съхранява средствата на клъстера и една точка от данни. Къде наистина възниква грешката ви? Картограф? Разбъркване? Намаляване?
- person Has QUIT--Anony-Mousse; 27.11.2013