Престо и Улей

Я пытаюсь включить базовые запросы SQL к файлам CSV, расположенным в каталоге s3. Presto казался естественным (файлы размером 10 ГБ). Во время настройки в Presto я попытался создать таблицу с помощью коннектора Hive. Мне было непонятно, нужно ли мне хранилище метаданных улья только для сохранения моих конфигураций таблиц в Presto, или мне нужно сначала создать их там.

В документации создается впечатление, что вы можете использовать Presto без НАСТРОЙКИ Hive, но с использованием синтаксиса Hive. Это точно? По моему опыту, AWS S3 не смог подключиться.


person Dennis P    schedule 11.02.2017    source источник
comment
Примечание: вы также можете рассмотреть возможность использования Amazon Athena, который представляет собой бессерверную реализацию Presto. Однако на данный момент это только в нескольких регионах.   -  person John Rotenstein    schedule 11.02.2017
comment
Я бы хотел использовать Amazon Athena, но он не подходит для моего конкретного случая использования (здравоохранение).   -  person Dennis P    schedule 11.02.2017
comment
По моему опыту, AWS S3 не может подключиться. - В чем именно была проблема? Коннектор Presto Hive поддерживает S3 (как минимум s3a://) из коробки, если вы используете роли IAM для предоставления компьютерам EC2 доступа к S3.   -  person Piotr Findeisen    schedule 01.04.2017


Ответы (3)


Синтаксис Presto аналогичен синтаксису Hive. Для большинства простых запросов одинаковый синтаксис будет работать в обоих. Однако есть некоторые ключевые различия, которые делают Presto и Hive не совсем одинаковыми. Например, в Hive вы можете использовать LATERAL VIEW EXPLODE, тогда как в Presto вы можете использовать CROSS JOIN UNNEST. Есть много таких примеров тонких синтаксических различий между ними.

person Ezra Justin Lee    schedule 13.11.2017

Невозможно использовать vanilla Presto для анализа данных на S3 без Hive. Presto предоставляет только механизм распределенного выполнения. Однако в нем отсутствуют метаданные о таблицах. Таким образом, Presto Coordinator требуется Hive для получения метаданных таблицы для анализа и выполнения запроса.

Однако вы можете использовать AWS Athena, управляемый Presto, для выполнения запросов поверх S3.

Другой вариант, в недавнем выпуске 0.198 Presto добавляет возможность подключения AWS Приклейте и извлеките метаданные таблицы поверх файлов в S3.

person Sayat Satybald    schedule 26.04.2018

Я знаю, что прошло много времени, но если этот вопрос все еще не решен, рассматривали ли вы возможность использования Spark? Spark легко подключается с помощью готовых методов и может запрашивать / обрабатывать данные, хранящиеся в форматах S3 / CSV.

Кроме того, мне любопытно: какое решение вы в конечном итоге использовали для решения своей проблемы?

person Ezra Justin Lee    schedule 14.09.2020