Как я могу читать и записывать двоичные файлы в Cascading?

Я хочу загрузить некоторые файлы в двоичном формате (например, jpeg, но это может быть любой двоичный формат), как-то обработать его и записать обратно. Я хочу сделать это на хаупе, и я хотел бы написать это поверх каскадной структуры.

Существуют ли двоичные приемники/вкладки, которые я могу использовать для файлов в двоичном формате? Есть ли другой способ сделать это?

Я ничего не мог найти. Единственная альтернатива, о которой я мог подумать, это, возможно, мне следует реализовать свой собственный Hadoop InputFormat, который будет считывать файлы как байтовый массив или java ByteBuffer, но мне кажется странным, что нет встроенного решения (потому что я уверен, что я Я не первый, кто столкнулся с этой проблемой).

Если у кого-то есть какие-либо указатели, это будет высоко оценено


person polo    schedule 17.07.2013    source источник


Ответы (1)


Вам нужно будет написать свой собственный Hadoop InputFormat для обработки ваших двоичных данных, а затем обернуть этот InputFormat в пользовательский Cascading Scheme. С другой стороны, вам не нужен пользовательский Tap.

Все это исходит от самого каскадного автора.

person Engineiro    schedule 19.07.2013