Самый быстрый способ синхронизации (или сохранения импорта) данных объемом 3,5 ТБ из Hadoop в сегментированный кластер mongodb.

В нашем кластере хаупов есть 3,5 ТБ данных (да, на hdfs). И мы недавно создали сегментированный кластер mongodb (последняя версия 3.x) с 3 mongos, 3 configdb и 3 осколками (каждый осколок имеет 1 первичный и 2 вторичных узла)

Мы ищем лучший/самый быстрый способ импортировать эти данные из hadoop/hdfs в наш недавно созданный сегментированный кластер mongodb.

Все эти данные будут в сегментированных коллекциях в кластере mongodb.

У нас нет большого опыта в этом, и мы понятия не имеем, как сделать это самым быстрым способом в нашей среде.

Благодарим, если кто-нибудь может дать подсказку или инструменты, которые мы можем использовать. инструменты с открытым исходным кодом или коммерческие нам подходят.

Джо


person nntp    schedule 15.09.2015    source источник
comment
изучите этот другой вопрос 32510591" title="как хранить обработанные данные из hdfs с использованием mapreduce в mongodb в качестве вывода"> stackoverflow.com/questions/32500080/.   -  person RojoSam    schedule 15.09.2015
comment
Спасибо Рохо, посмотрю.   -  person nntp    schedule 16.09.2015