Создание таблицы Hive поверх нескольких файлов паркета в s3

У нас есть набор данных в формате s3 (файлы паркета) в формате ниже, данные разделены на несколько файлов паркета в зависимости от номера строки.

data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...

У нас есть более 2000 таких файлов, и каждый файл содержит миллион записей. Все эти файлы имеют одинаковое количество столбцов и структуру. И в одном из столбцов есть отметка времени, если нам нужно разделить набор данных в улье. Как мы можем указать набор данных и создать над ним единую внешнюю таблицу улья для нашего анализа или можно использовать Spark для ее анализа?

Спасибо.

ds_user 22.02.2018 источник

Ответы (1)

arrow_upward
7
arrow_downward

Вы можете просто указать путь, содержащий файлы:

CREATE EXTERNAL TABLE parquet_hive (
  foo string
) STORED AS PARQUET
LOCATION 's3://myBucket/myParquet/';

John Rotenstein 22.02.2018

comment

Я не понимал, что это просто путь, а не имя файла. Имя файла унаследовано от STORED AS и имени таблицы в запросе ?? - rbatt; 19.03.2019

comment

Имя файла не имеет значения. Все файлы в данном каталоге (включая подкаталоги, я думаю) будут рассматриваться как часть таблицы. - John Rotenstein; 19.03.2019

Создание таблицы Hive поверх нескольких файлов паркета в s3

Ответы (1)

Похожие вопросы