Я запускаю задание Hadoop для набора входных файлов, сжатых с помощью gzip. Hadoop должен легко справиться с этим... mapreduce в java - входные файлы gzip
К сожалению, в моем случае входные файлы не имеют расширения .gz
. Я использую CombineTextInputFormatClass
, который отлично выполняет мою работу, если я указываю на файлы, не сжатые gzip, но в основном я просто получаю кучу мусора, если я указываю на файлы, сжатые gzip.
Я пытался искать в течение довольно долгого времени, но единственное, что я обнаружил, это кто-то другой, задающий тот же вопрос, что и я, без ответа... Как заставить Hadoop разархивировать входные данные независимо от их расширения?
У кого-нибудь есть что-нибудь?