AWS EMR Presto не находит правильные схемы Hive с помощью AWS Glue

Итак, у меня возникла проблема с выполнением запросов Presto через AWS EMR.

Я запустил EMR с запущенным hive / presto и использую AWS Glue в качестве хранилища метаданных.

Когда я подключаюсь по SSH к главному узлу и запускаю куст, я могу запустить "show schemas;" и он показывает мне 3 разные базы данных, которые есть на AWS Glue.

Если я затем войду в интерфейс командной строки Presto и запущу «показать схемы в улье», я увижу только два «по умолчанию» и «информационная_схема».

На всю жизнь я не могу понять, почему presto не может видеть те же схемы Hive.

Это базовый запуск кластера по умолчанию на EMR с использованием в основном настроек по умолчанию.

Может ли кто-нибудь указать мне, в каком направлении я должен искать? Я проверил файл hive.properties, и он выглядит хорошо, я просто не понимаю, почему presto не может видеть ту же информацию, что и улей.

У меня есть следующая конфигурация

[{"classification":"hive-site", "properties":{"hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory"}, "configurations":[]}]

Документы AWS http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html кажется, что это должно быть plug and play, но мне явно чего-то не хватает


person topherW    schedule 12.10.2017    source источник


Ответы (3)


Начиная с версии Amazon EMR 5.10.0, вы можете. Просто установите для свойства hive.metastore.glue.datacatalog.enabled значение true, как показано ниже:

[
  {
    "Classification": "presto-connector-hive",
    "Properties": {
      "hive.metastore.glue.datacatalog.enabled": "true"
    }
  }
]

При желании вы можете вручную установить hive.metastore.glue.datacatalog.enabled=true в файле /etc/presto/conf/catalog/hive.properties на главном узле. Если вы используете этот метод, убедитесь, что hive.table-statistics-enabled=false в файле свойств установлен, потому что каталог данных не поддерживает таблицу Hive и статистику разделов. Если вы измените значение в долго работающем кластере для переключения метастор, необходимо перезапустить сервер Presto на главном узле (sudo restart presto-server).

Источники: Документы AWS < / а>

person mostafazh    schedule 19.10.2017

Похоже, это было решено в emr-5.10. Вы хотите добавить следующий конфиг:

{"Classification":"presto-connector-hive","Properties":{"hive.metastore.glue.datacatalog.enabled": "true"}}

Источник: https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-presto-glue.html

person TomB    schedule 19.02.2018

Недавний выпуск Presto 0.198 теперь поддерживает AWS Glue в качестве источника метаданных.

Добавьте поддержку использования AWS Glue в качестве хранилища метаданных. Включите его, установив для свойства конфигурации hive.metastore значение glue.

https://prestodb.io/docs/current/release/release-0.198.html

person Sayat Satybald    schedule 26.04.2018