как выполняется запрос улья в HADoop

Мне нужно знать, как выполняется запрос куста в распределенной системе, такой как Hadoop. Я проверил другие вопросы, но ни один из них не объяснил подробно.

Ищу полный процесс исполнения. Я хочу знать, почему запросы на соединение улья занимают больше времени, чем простой запрос выбора.

Пожалуйста, объясните всем, кто знаком с процессом выполнения улья.

PS: Я использую платформу данных hortonworks в качестве фреймворка Hadoop.


person techprat    schedule 27.03.2017    source источник
comment
Если кто-нибудь может предоставить ссылку на хорошую документацию по процессу запроса улья, будет очень полезно.   -  person techprat    schedule 19.06.2017


Ответы (1)


Отправленный пользователем SQL-запрос преобразуется Hive в физическое дерево операторов, которое оптимизируется и преобразуется в Tez Jobs, а затем выполняется в кластере Hadoop. Распределенная обработка запросов SQL в Hadoop отличается от обычного механизма реляционных запросов, когда дело касается обработки промежуточных наборов результатов. Обработка запросов Hive часто требует сортировки и повторной сборки промежуточного набора результатов; на языке Hadoop это называется перетасовкой.

Большинство существующих оптимизаций запросов в Hive направлены на минимизацию затрат на перемешивание. В настоящее время пользователю необходимо отправить оптимизированный запрос в Hive с правильным порядком соединения для эффективного выполнения запроса. Логические оптимизации в Hive ограничиваются удалением фильтра, сокращением проекции и сокращением разделов. Логическая оптимизация на основе затрат может значительно улучшить задержку запросов Apache Hive и упростить использование.

Изменение порядка объединения и выбор алгоритма объединения - это лишь некоторые из оптимизаций, которые могут извлечь выгоду из оптимизатора, основанного на стоимости. Оптимизатор на основе затрат освободит пользователя от необходимости переупорядочивать объединения в правильном порядке или от необходимости указывать алгоритм объединения с помощью подсказок запроса и параметров конфигурации. Это потенциально может освободить пользователей для моделирования своих отчетов и потребностей ETL, близких к бизнес-процессам, не беспокоясь об оптимизации запросов.

Прочтите вики, это то, что вы после. Если у вас есть конкретный вопрос о коде, опубликуйте, что вы пробовали и чего надеетесь достичь.

person AM_Hawk    schedule 27.03.2017