Фильтр скребка не работает со скребком и EMR

Я хотел бы отфильтровать все строки, содержащие внутренние, но данные не фильтруются. В моих скриптах свиньи у меня есть:

preload = load '$INPUT' as (textline:chararray);
filterdata = FILTER preload BY SIZE(textline) > 100;
filterInternal = FILTER filterdata by NOT(textline MATCHES '.*internal.*');

Использование Pig 0.12.0 на AWS


person pointerException    schedule 29.12.2014    source источник


Ответы (1)


Загрузите с помощью текстового загрузчика, так как ваш входной набор данных не разделен табуляцией.

Я попробовал пример ниже, и это сработало

a = загружать "совпадения" ИСПОЛЬЗОВАНИЕ TextLoader AS(line:chararray);

b = отфильтровать a по слову not (строка соответствует '.imran.');

дамп б;

person Imran    schedule 04.01.2015