У меня есть Hive 0.8, установленный в кластере Hadoop, работающем в AWS EMR.
Я пытаюсь сделать некоторые данные QA, которые включают в себя запуск запроса куста и выборку результатов в python, где содержится еще некоторая логика.
В настоящее время это достигается путем отправки запроса куста в качестве шага рабочего процесса, выгрузки этих результатов в локальное хранилище на главном узле, SCP-передачи этих результатов на мой локальный компьютер, а затем загрузки файла с помощью python и анализа результатов. В общем, не очень увлекательный процесс.
В идеале я мог бы сделать это примерно так:
conn = hive.connect(ip, port, user, pw)
cursor = conn.cursor()
cursor.execute(query)
rs = cursor.fetchall()
Кажется, что это якобы возможно. Hive сообщает, что поддерживает его здесь. Существует также еще один вопрос SO. это похоже на то, что я хотел бы сделать.
Однако у меня возникли проблемы с поиском документации. В частности, мне не удалось выяснить, где взять пакеты, используемые в этих примерах. Было бы очень полезно, если бы кто-нибудь мог предоставить подробные инструкции о том, как заставить работать клиент Python, но в противном случае было бы полезно просто знать, где получить эти пакеты.