Запуск примера Sort в Hadoop (кластер с одним узлом)

Я установил Hadoop single-node cluster 0.20.2 на Ubuntu 10.04 и запустил пример, используя материалы учебника, которые я нашел на этом сайте:

http://www.dscripts.net/wiki/setup-hadoop-ubuntu-single-node

Теперь я пытаюсь запустить Sort example на Hadoop. Ему нужны последовательные файлы в качестве входных данных. Кто-нибудь может help мне running the Sort example? (или дать мне дополнительную информацию о том, как генерировать последовательные файлы в качестве входных данных).

Заранее спасибо.. ;-)


person pr_prog_84    schedule 31.03.2011    source источник


Ответы (2)


Тестовый тест сортировки

Чтобы использовать пример сортировки в качестве эталона, сгенерируйте 10 ГБ случайных данных на узел с помощью RandomWriter. Затем отсортируйте данные, используя пример сортировки. Это обеспечивает контрольный показатель сортировки, который масштабируется в зависимости от размера кластера. По умолчанию в примере сортировки используется 1,0 * емкость для количества сокращений, и в зависимости от вашего кластера вы можете увидеть лучшие результаты при 1,75 * емкости.

Команды:

$> bin/hadoop jar hadoop-*-examples.jar randomwriter /path/randFiles
$> bin/hadoop jar hadoop-*-examples.jar sort /path/randFiles /path/resultFile

Первая команда сгенерирует несортированные данные в каталоге rand. Вторая команда прочитает эти данные, отсортирует их и запишет в каталог rand-sort.

person Pari Rajaram    schedule 29.04.2011

Взгляните на RandomWriter. Это задание, которое выводит файл последовательности, используя случайные данные. Ключом является строка job.setOutputFormat(SequenceFileOutputFormat.class), определяющая формат вывода.

person Brent Worden    schedule 04.04.2011
comment
Большое спасибо! Я попробую это и дам вам знать ;) - person pr_prog_84; 05.04.2011