Свързани въпроси 'emr'
HIVE ORC връща NULL
Създавам ORC външна таблица на кошера (ORC файл, разположен на S3).
Команда
CREATE EXTERNAL TABLE Table1 (Id INT, Name STRING) STORED AS ORC LOCATION 's3://bucket_name'
След изпълнение на заявката :
Select * from Table1;...
1744 изгледи
schedule
30.09.2022
Как мога да чета и пиша двоични файлове в Cascading?
Искам да заредя някои файлове в двоичен формат (например jpegs, но може да бъде всеки двоичен формат), да го манипулирам по някакъв начин и да го запиша обратно. Искам да направя това на hadoop и бих искал да го напиша върху Cascading framework....
577 изгледи
schedule
15.12.2023
Клъстерът MAPR M7 hbase не попълва .META. маса
Намирах причината, поради която клъстерът MAPR M7 EMR не попълва HBASE .META. маса. Опитах се да поправя и с помощта на командата hbck, но все още не успях. Всяка помощ ще бъде високо оценена
63 изгледи
schedule
08.12.2022
Pig филтър съвпада не работи с pig и EMR
Бих искал да филтрирам всички низове, които съдържат вътрешни, но данните не са филтрирани. В моите свински скриптове имам:
preload = load '$INPUT' as (textline:chararray);
filterdata = FILTER preload BY SIZE(textline) > 100;
filterInternal =...
155 изгледи
schedule
11.12.2022
Възможно ли е да добавите допълнителен вход към по-късна стъпка на mrjob?
Имам mrjob, който се състои от 3 стъпки. Втората стъпка очаква като вход резултатите от първата стъпка плюс малко повече съдържание от S3.
Разбирам, че винаги мога да го „поточно предавам“ през първата стъпка, което означава, че излъчването е...
80 изгледи
schedule
01.06.2024
Използвайте входен кодек gzip за файлове без разширение .gz в hadoop
Изпълнявам задача на Hadoop върху куп входни файлове, компресирани с gzip. Hadoop трябва да се справи с това лесно... mapreduce в java - gzip входни файлове
За съжаление в моя случай входните файлове нямат разширение .gz . Използвам...
861 изгледи
schedule
11.03.2024