Создание таблицы Hive поверх нескольких файлов паркета в s3

У нас есть набор данных в формате s3 (файлы паркета) в формате ниже, данные разделены на несколько файлов паркета в зависимости от номера строки.

data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...

У нас есть более 2000 таких файлов, и каждый файл содержит миллион записей. Все эти файлы имеют одинаковое количество столбцов и структуру. И в одном из столбцов есть отметка времени, если нам нужно разделить набор данных в улье. Как мы можем указать набор данных и создать над ним единую внешнюю таблицу улья для нашего анализа или можно использовать Spark для ее анализа?

Спасибо.


person ds_user    schedule 22.02.2018    source источник


Ответы (1)


Вы можете просто указать путь, содержащий файлы:

CREATE EXTERNAL TABLE parquet_hive (
  foo string
) STORED AS PARQUET
LOCATION 's3://myBucket/myParquet/';
person John Rotenstein    schedule 22.02.2018
comment
Я не понимал, что это просто путь, а не имя файла. Имя файла унаследовано от STORED AS и имени таблицы в запросе ?? - person rbatt; 19.03.2019
comment
Имя файла не имеет значения. Все файлы в данном каталоге (включая подкаталоги, я думаю) будут рассматриваться как часть таблицы. - person John Rotenstein; 19.03.2019