Наш клиент загружает файлы в GCS, но они заархивированы. Есть ли способ, используя SDK Java Dataflow, в котором мы можем просмотреть все заархивированные файлы, разархивировать файл, объединить все полученные файлы .csv в один файл, а затем выполнить только преобразования TextIO
?
ИЗМЕНИТЬ
Чтобы ответить на вопросы jkffs,
- Ну, на самом деле мне не нужно объединять их все в один файл, просто это было бы намного проще с точки зрения чтения.
- Это ZIP-файлы, а не GZ или BZ или что-то еще. Каждый ZIP содержит несколько файлов. Имена файлов не имеют большого значения, и да, я бы предпочел, чтобы TextIO прозрачно распаковывал и объединял все файлы для каждого архива.
Надеюсь, это поможет!