Запуск примера Sort в Hadoop (кластер с одним узлом)

Я установил Hadoop single-node cluster 0.20.2 на Ubuntu 10.04 и запустил пример, используя материалы учебника, которые я нашел на этом сайте:

http://www.dscripts.net/wiki/setup-hadoop-ubuntu-single-node

Теперь я пытаюсь запустить Sort example на Hadoop. Ему нужны последовательные файлы в качестве входных данных. Кто-нибудь может help мне running the Sort example? (или дать мне дополнительную информацию о том, как генерировать последовательные файлы в качестве входных данных).

Заранее спасибо.. ;-)

pr_prog_84 31.03.2011 источник

Ответы (2)

arrow_upward
1
arrow_downward

Тестовый тест сортировки

Чтобы использовать пример сортировки в качестве эталона, сгенерируйте 10 ГБ случайных данных на узел с помощью RandomWriter. Затем отсортируйте данные, используя пример сортировки. Это обеспечивает контрольный показатель сортировки, который масштабируется в зависимости от размера кластера. По умолчанию в примере сортировки используется 1,0 * емкость для количества сокращений, и в зависимости от вашего кластера вы можете увидеть лучшие результаты при 1,75 * емкости.

Команды:

$> bin/hadoop jar hadoop-*-examples.jar randomwriter /path/randFiles
$> bin/hadoop jar hadoop-*-examples.jar sort /path/randFiles /path/resultFile

Первая команда сгенерирует несортированные данные в каталоге rand. Вторая команда прочитает эти данные, отсортирует их и запишет в каталог rand-sort.

Pari Rajaram 29.04.2011

arrow_upward
0
arrow_downward

Взгляните на RandomWriter. Это задание, которое выводит файл последовательности, используя случайные данные. Ключом является строка job.setOutputFormat(SequenceFileOutputFormat.class), определяющая формат вывода.

Brent Worden 04.04.2011

comment

Большое спасибо! Я попробую это и дам вам знать ;) - pr_prog_84; 05.04.2011

Запуск примера Sort в Hadoop (кластер с одним узлом)

Ответы (2)

Похожие вопросы