Свързани въпроси 'apache-pig'

Филтриране на данни в Apache Pig
Хей, опитвам се да филтрирам следния вход: Id Num 102369 100 623589 200 102369 300 103333 300 103333 100 ... Очакваното изходно отношение трябва да бъде намалено и да включва само всички ID - Num отношения за съществуващи...
119 изгледи
schedule 16.09.2022

Използване на Pig на Hortonworks Sandbox
Опитвам се да използвам CurrentTime() в пясъчника, предоставен от Hortonworks, и не мога да го накарам да работи. Това е всичко, което имам в скрипта Pig: <code> REGISTER zookeeper.jar REGISTER piggybank.jar REGISTER...
2251 изгледи

Pig - как да изберете само някои стойности от списъка (не само обикновени различни)?
Да кажем, че имам intput_file.txt (user_id, event_code, event_date): 1,a,1 1,b,2 2,a,3 2,b,4 2,b,5 2,b,6 2,c,7 2,b,8 както можете да видите, user_id = 2, има събития като това: abbbcb Бих искал да имам резултат като този:...
1027 изгледи
schedule 03.10.2022

Как да инсталирате плъгин Pig за Eclipse
Предстои ми да започна да работя с Apache Pig в Ubuntu и търсех най-добрите pig плъгини и ръководство за бързо инсталиране, за да започна с примерен PIG скрипт в Eclipse. Търсих много в Google, но не можах да намеря правилното описание как да...
112 изгледи
schedule 30.09.2022

Деклариране на променлива и схема в PIG
как да декларирам променлива в PIG? да предположим, че искам да имам цяло число, което да има стойности като 10, как мога да го декларирам в скрипт? и как схемата може да се използва повторно?
19944 изгледи
schedule 11.10.2022

Как да включите FileName в Pig Latin Script с помощта на XMLLoader?
Използвам XMLLoader, за да заредя XML в моя свински латински скрипт. И след това да го анализирам с моя UDF. Проблемът е, че искам да включа името на входния файл в моя UDF. Нещо като име на файл = (низ)input.get(1); Ето моят латински код за...
581 изгледи
schedule 05.10.2022

Изпълнение на Pig на друга рамка
Разбирам, че Pig Latin е език за поток от данни. В този смисъл теоретично би трябвало да е възможно да се изпълни Pig Latin във всяка рамка, въпреки че в момента е предвидено да се изпълнява в Hadoop среда. Колко трудно би било да превключите Pig...
173 изгледи
schedule 25.10.2023

Проектиране на групирани кортежи в Pig
Имам колекция от кортежи от формата (t,a,b), които искам да групирам по b в Pig. След като бъдат групирани, искам да филтрирам b от кортежите във всяка група и да генерирам пакет от филтрирани кортежи за всяка група. Като пример приемете, че имаме...
2882 изгледи
schedule 11.12.2022

pig-0.9.0.pom не съдържа всичките си зависимости по време на изпълнение, като pig-0.8.1-cdh3u1.pom
maven noob, имай търпение... Надстройвам от cdh3u1 до apache hadoop 0.20.203.0 и pig 0.9.0. Преди имах: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-core</artifactId>...
1809 изгледи
schedule 19.10.2022

Pig-Scala UDF изключение - ScalaObject не е намерен
Имам scala .class файл, който конвертирам в jar и се опитвам да register към свински скрипт. Той може да намери този клас сега, НО хвърля ClassNotFoundException за scala.ScalaObject . Забелязвам, че има scala.ScalaObject.class запис в...
320 изгледи

Грешка при присъединяване с таблица hbase в pig: Няма файлова система за схема: hbase
Опитвам се да се присъединя към таблица hbase с информация от hdfs файл. Аз съм сравнително нов в hbase и pig. set hbase.zookeeper.quorum 'mprhdp2-dev.local' set hbase.zookeeper.property.clientPort 5100 A = LOAD '/raw/JoinTest2.txt' USING...
1731 изгледи
schedule 09.11.2023

Грешка при изпълнение на UDF в PIG
Опитвам се да стартирам първия си UDF, използвайки примера http://wiki.apache.org/pig/UDFManual . Сега имам моите FirstUdf.jar, myscript.pig и двете в една и съща папка Моят myscript.pig е както следва REGISTER FirstUdf.jar; A = LOAD...
136 изгледи
schedule 06.12.2022

проблем с pig към hadoop: Сървър IPC версия 7 не може да комуникира с клиент версия 4
Опитвам се да стартирам pig и не успявам: $ pig 2013-05-10 18:03:22,972 [main] INFO org.apache.pig.Main - Apache Pig version 0.11.1 (r1459641) compiled Mar 22 2013, 02:13:53 2013-05-10 18:03:22,972 [main] INFO org.apache.pig.Main - Logging...
8488 изгледи
schedule 18.11.2022

Събития за премахване на дублиране на Pig, възникващи в рамките на 1 минута едно от друго
Използваме pig-0.11.0-cdh4.3.0 с CDH4 клъстер и трябва да дедупликираме някои уеб регистрационни файлове. Идеята за решение (изразена в SQL) е нещо подобно: SELECT T1.browser, T1.click_type, T1.referrer, T1.datetime,...
644 изгледи
schedule 08.12.2022

Отстранете непечатаемите знаци с помощта на Hadoop Map-Reduce
Опитвам се да обработя HDFS файл, който има непечатаеми символи. Искам да премахна тези знаци с помощта на MapReduce. Опитах да използвам Pig TextLoader и MR TextInputFormat (IN MR програма) и това води до разделяне на запис на множество от...
1290 изгледи
schedule 25.10.2022

Обработка на актуализирани записи в Hadoop
Всеки ден таблицата „потребител“ от Oracle се изхвърля в HDFS. Дъмпът съдържа само последните промени (вмъквания и актуализации), които са направени след предишния дъмп. Сега исках да заредя всички ежедневни изхвърляния, използвайки PIG, в релация и...
427 изгледи
schedule 01.12.2023

Грешка JAVA_HOME при стартиране на PIG
След като зададох JAVA_HOME в моята среда, получих това при стартиране на PIG: ubuntu@XXXXXX:~/pig/pig-0.11.1/bin$ export JAVA_HOME=/usr/lib/jvm/java-6-sun ubuntu@ip-10-117-89-198:~/pig/pig-0.11.1/bin$ ./pig Exception in thread "main"...
1793 изгледи
schedule 15.12.2023

Функцията Pig SUBSTRING не генерира колона
Използвам сложен оператор foreach, за да генерирам данните си. Това е примерен ред: (2013-07-01) По-долу е моят код: joined_data = foreach old_data { date = old_data::date; month = SUBSTRING(date, 5, 7); generate date,...
709 изгледи
schedule 13.12.2023

Pig Script без натоварване
Аз съм начинаещ в Pig. Опитвам се да разбера как да дефинирам торба или кортеж с твърдо кодирани стойности, без да зареждам данни от файл. Всеки пример, с който съм се сблъсквал, започва с: a = ЗАРЕДЕ '/файл/име' с помощта на PigStorage(',');...
749 изгледи
schedule 17.11.2022

Apache прасе на искра
Използвам hadoop2.2.0, cassandra2.0.6, pig0.12 и spark1.0.1. Чета данни от касандра, използвайки прасе, използвайки манипулатора на CassandraStorage и извърших аналитични операции. Знам, че spark приема данни във формат за въвеждане на hadoop (pig)....
497 изгледи
schedule 25.10.2023