Я хочу заархивировать свои журналы в формате Parquet. Перед написанием таблицы я хочу отсортировать ее по столбцу c
, чтобы каждый файл Parquet имел только небольшой диапазон c
. Это позволит Athena / Presto эффективно сканировать таблицу, когда запрос включает предложение WHERE в столбце c
(с помощью раскрывающегося вниз предиката).
Однако мне неясно, могу ли я использовать Athena или Presto для сортировки всей таблицы. Мне нужна распределенная сортировка, а не сортировка на одном узле, потому что набор данных слишком велик, чтобы поместиться на одном узле. Возможен ли такой сорт? Если да, то как его вызвать?