Мне нужно переместить (не скопировать) много файлов из одного каталога hdfs в другой каталог hdfs в том же кластере.
Я мог бы использовать distcp, но это кажется излишним, поскольку он копирует файл (дублирует его). Я просто хочу его переместить. Два вопроса:
А) Есть ли там что-нибудь:
Я хотел бы использовать mapreduce для этого, так как есть миллионы файлов, которые нужно переместить (или переименовать на новый путь). Я также хочу интегрировать его с oozie. Я мог бы сам написать работу по уменьшению карты, но мне было интересно, есть ли что-то, что могло бы выполнить эту работу.
Б) Мне действительно нужно делать это как mapred?
К сожалению, я недостаточно знаю о характеристиках производительности переименования hdfs; как вы думаете, я мог бы найти способ с однопоточным подходом к переименованию файлов?