Най-бързият начин за синхронизиране (или запазване на импортирането) на 3,5TB данни от hadoop към шардиран клъстер mongodb

Има 3,5TB данни в нашия hadoop клъстер (да на hdfs). И ние създадохме наскоро разделен клъстер mongodb (най-новата версия 3.x) с 3 mongos, 3 configdb и 3 шарда (всеки шард има 1 първичен и 2 вторични възела)

Търсим най-добрия/най-бързия начин за импортиране на тези данни от hadoop/hdfs в нашия новоизграден шардинг mongodb клъстер.

Всички тези данни ще бъдат в разделени колекции в клъстер mongodb.

Нямаме много опит в това и нямаме представа как да го направим по най-бързия начин в нашата среда.

Оценяваме, ако някой може да даде следа или инструментите, които можем да използваме. инструментите с отворен код или рекламата са добри за нас.

Джо


person nntp    schedule 15.09.2015    source източник
comment
разгледайте този друг въпрос stackoverflow.com/questions/32500080/.   -  person RojoSam    schedule 15.09.2015
comment
Благодаря Рохо, ще го проверя.   -  person nntp    schedule 16.09.2015