Престо и Улей

Я пытаюсь включить базовые запросы SQL к файлам CSV, расположенным в каталоге s3. Presto казался естественным (файлы размером 10 ГБ). Во время настройки в Presto я попытался создать таблицу с помощью коннектора Hive. Мне было непонятно, нужно ли мне хранилище метаданных улья только для сохранения моих конфигураций таблиц в Presto, или мне нужно сначала создать их там.

В документации создается впечатление, что вы можете использовать Presto без НАСТРОЙКИ Hive, но с использованием синтаксиса Hive. Это точно? По моему опыту, AWS S3 не смог подключиться.

amazon-s3 presto

Dennis P 11.02.2017 источник

comment

Примечание: вы также можете рассмотреть возможность использования Amazon Athena, который представляет собой бессерверную реализацию Presto. Однако на данный момент это только в нескольких регионах. - John Rotenstein 11.02.2017

comment

Я бы хотел использовать Amazon Athena, но он не подходит для моего конкретного случая использования (здравоохранение). - Dennis P 11.02.2017

comment

По моему опыту, AWS S3 не может подключиться. - В чем именно была проблема? Коннектор Presto Hive поддерживает S3 (как минимум s3a://) из коробки, если вы используете роли IAM для предоставления компьютерам EC2 доступа к S3. - Piotr Findeisen 01.04.2017

Ответы (3)

arrow_upward
1
arrow_downward

Синтаксис Presto аналогичен синтаксису Hive. Для большинства простых запросов одинаковый синтаксис будет работать в обоих. Однако есть некоторые ключевые различия, которые делают Presto и Hive не совсем одинаковыми. Например, в Hive вы можете использовать LATERAL VIEW EXPLODE, тогда как в Presto вы можете использовать CROSS JOIN UNNEST. Есть много таких примеров тонких синтаксических различий между ними.

Ezra Justin Lee 13.11.2017

arrow_upward
1
arrow_downward

Невозможно использовать vanilla Presto для анализа данных на S3 без Hive. Presto предоставляет только механизм распределенного выполнения. Однако в нем отсутствуют метаданные о таблицах. Таким образом, Presto Coordinator требуется Hive для получения метаданных таблицы для анализа и выполнения запроса.

Однако вы можете использовать AWS Athena, управляемый Presto, для выполнения запросов поверх S3.

Другой вариант, в недавнем выпуске 0.198 Presto добавляет возможность подключения AWS Приклейте и извлеките метаданные таблицы поверх файлов в S3.

Sayat Satybald 26.04.2018

arrow_upward
0
arrow_downward

Я знаю, что прошло много времени, но если этот вопрос все еще не решен, рассматривали ли вы возможность использования Spark? Spark легко подключается с помощью готовых методов и может запрашивать / обрабатывать данные, хранящиеся в форматах S3 / CSV.

Кроме того, мне любопытно: какое решение вы в конечном итоге использовали для решения своей проблемы?

Ezra Justin Lee 14.09.2020

Престо и Улей

Ответы (3)

Похожие вопросы