Имам инсталиран Hive 0.8 на hadoop клъстер, работещ в AWS EMR.
Опитвам се да направя малко QA на данни, което включва изпълнение на заявка за кошер и извличане на резултатите в python, където се съдържа малко повече логика.
Понастоящем това се постига чрез изпращане на заявка за кошер като стъпка на поток от задания, изхвърляне на тези резултати в локално хранилище на главния възел, SCP-иране на тези резултати на моята локална машина и след това зареждане на файла с python и анализиране на резултатите. Като цяло не е много забавен процес.
В идеалния случай бих могъл да направя това по начин, подобен на:
conn = hive.connect(ip, port, user, pw)
cursor = conn.cursor()
cursor.execute(query)
rs = cursor.fetchall()
Изглежда, че това е възможно. Hive казва, че го поддържа тук. Има и друг SO въпрос изглежда, че прави това, което бих искал да направя.
Имам обаче проблем с намирането на документация. По-специално, не успях да разбера откъде да получа пакетите, използвани в тези примери. Би било изключително полезно, ако някой успее да предостави подробни инструкции как да накарате клиента на python да работи, но ако не успеете, би било полезно просто да знаете откъде да получите тези пакети.