У нас есть набор данных в формате s3 (файлы паркета) в формате ниже, данные разделены на несколько файлов паркета в зависимости от номера строки.
data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...
У нас есть более 2000 таких файлов, и каждый файл содержит миллион записей. Все эти файлы имеют одинаковое количество столбцов и структуру. И в одном из столбцов есть отметка времени, если нам нужно разделить набор данных в улье. Как мы можем указать набор данных и создать над ним единую внешнюю таблицу улья для нашего анализа или можно использовать Spark для ее анализа?
Спасибо.