похоже, что Hadoop прозрачно обрабатывает сжатие (когда это было введено, я не помню его в версии 0.20.203) при использовании TextInputFormat
. К сожалению, при использовании сжатия LZO Hadoop не использует индексный файл LZO, чтобы сделать файл разделяемым. Однако, если я установил формат ввода com.hadoop.mapreduce.LzoTextInputFormat
, файл будет разделен.
Можно ли настроить Hadoop на распаковку файлов LZO и их разделение при использовании TextInputFormat
?