Изпълнение на примера за сортиране на Hadoop (клъстер с един възел)

Инсталирах Hadoop single-node cluster 0.20.2 на Ubuntu 10.04 и пуснах пример, използвайки материала от урока, който намерих на този сайт:

http://www.dscripts.net/wiki/setup-hadoop-ubuntu-single-node

Сега се опитвам да стартирам Sort example на Hadoop. Нуждае се от последователни файлове като вход. Може ли някой да ми help running the Sort example? (или ми дава малко повече информация за това как да генерирам последователните файлове като вход).

Благодаря ви предварително.. ;-)


person pr_prog_84    schedule 31.03.2011    source източник


Отговори (2)


Стартиране на бенчмарк за сортиране

За да използвате примера за сортиране като еталон, генерирайте 10 GB/възел произволни данни с помощта на RandomWriter. След това сортирайте данните, като използвате примера за сортиране. Това осигурява бенчмарк за сортиране, който се мащабира в зависимост от размера на клъстера. По подразбиране примерът за сортиране използва 1,0 * капацитет за броя на намаленията и в зависимост от вашия клъстер може да видите по-добри резултати при 1,75 * капацитет.

Командите са:

$> bin/hadoop jar hadoop-*-examples.jar randomwriter /path/randFiles
$> bin/hadoop jar hadoop-*-examples.jar sort /path/randFiles /path/resultFile

Първата команда ще генерира несортираните данни в директорията rand. Втората команда ще прочете тези данни, ще ги сортира и ще запише в директорията rand-sort.

person Pari Rajaram    schedule 29.04.2011

Разгледайте RandomWriter пример. Това е работа, която извежда файл с последователност, използвайки произволни данни. Ключът е редът job.setOutputFormat(SequenceFileOutputFormat.class), който определя изходния формат.

person Brent Worden    schedule 04.04.2011
comment
Благодаря ти много! Ще пробвам това и ще ви уведомя ;) - person pr_prog_84; 05.04.2011