Публикации по теме 'hive'


Вторник Flutter Benchmark: SQLite против Hive  — как нас обманывают популярные статьи
Всем привет. Это очередная история нашего регулярного сегмента «тестирование очевидных вещей по вторникам». И в этот раз мое внимание привлекла тема выбора базы данных для локального хранения данных во Flutter-приложении. Эта тема очень заезжена, и о ней написано множество статей, большинство из которых касается лишь практического сравнения трех альтернативных вариантов хранения данных: Hive, SQLite и SharedPreferences. Я не буду тратить ваше время на описание каждого из них,..

Большие данные: обзор apache Hadoop
Фундаментальная идея MRv2 состоит в том, чтобы разделить две основные функции JobTracker, управление ресурсами и планирование/мониторинг заданий, на отдельные демоны. Идея состоит в том, чтобы иметь глобальный ResourceManager (RM) и ApplicationMaster для каждого приложения (AM). Приложение представляет собой либо одно задание в классическом понимании заданий Map-Reduce, либо группу заданий DAG. Дополнительную информацию см. в курсе работы с большими данными Hadoop . ResourceManager и..

Вопросы по теме 'hive'

Извлечь хост + одну папку из пути
Не могли бы вы помочь мне понять регулярное выражение, которое будет извлекаться из URL-адреса: имя хоста, если в пути, следующем за ним, не указана папка, например. http://jj.com/' -> 'jj.com http://jj.com/index.php' -> 'jj.com...
184 просмотров
schedule 12.11.2022

регулярное выражение для доступа к журналу в улье serde
Я хочу извлечь (ip, requestUrl, timeStamp) из журналов доступа для загрузки в базу данных куста. Одна строка из журнала доступа выглядит следующим образом. 66.249.68.6 - - [14/Jan/2012:06:25:03 -0800] "GET /example.com HTTP/1.1" 200 708 "-"...
18764 просмотров
schedule 27.11.2022

Как сделать двойной разделитель в Hive?
скажем, у меня есть несколько образцов строк данных site1^http://article1.com?datacoll=5|4|3|2|1&test=yes site1^http://article1.com?test=yes site1^http://article1.com?datacoll=5|4|3|2|1&test=yes Я хочу создать такую ​​таблицу, чтобы...
1307 просмотров
schedule 03.10.2022

append не работает с кустом
Я пытаюсь вставить данные из таблицы a в таблицу b (оба являются внешними таблицами), в основном полагаясь на функцию добавления среды. Я пробовал то же самое с управляемыми таблицами, но поведение было таким же. Аппенд как-то не работает у меня....
1318 просмотров
schedule 13.11.2023

как выбрать данные из улья с определенным разделом?
каждый. вот взаимодействие с ульем: hive> show partitions TABLENAME pt=2012.07.28.08/is_complete=1 pt=2012.07.28.09/is_complete=1 pt=2012.07.28.10/is_complete=1 pt=2012.07.28.11/is_complete=1 hive> select * from TABLENAME where...
61332 просмотров
schedule 31.10.2022

Snappy или LZO для журналов, которые затем используются Hadoop
У меня большой объем услуг. Я регистрирую события. Каждые несколько минут я архивирую журналы с помощью gzip и перемещаю их на S3. Оттуда мы обрабатываем журналы с помощью Amazon Hadoop — эластичного mapreduce — через Hive. Прямо сейчас на...
2512 просмотров
schedule 06.10.2022

Фаза редуктора вообще не запускается. Это всегда «редуктор = 0%»
Я ждал целую вечность, чтобы увидеть начало фазы редуктора, но она не начинается. Я пробовал форматировать namenode, но все та же проблема. Я сталкиваюсь с этой проблемой везде, где должен работать редуктор. Может ли кто-нибудь помочь мне в этом...
1064 просмотров
schedule 05.12.2022

Запускайте запросы куста и собирайте информацию о заданиях
Я хотел бы запустить список сгенерированных запросов HIVE. Для каждого я хотел бы получить MR job_id (или идентификаторы, в случае нескольких этапов). А затем, с этим job_id, собрать статистику из трекера заданий (кумулятивный ЦП, прочитанные...
14013 просмотров
schedule 24.01.2024

Процентили для нескольких столбцов
У меня есть таблица с примерно 200-250 столбцами, и я хочу вычислить процентиль для каждого из этих столбцов. Hive предоставляет функцию Percentile(int_exp,p), которая возвращает значение p-го процентиля столбца int_exp. Но кажется излишним...
740 просмотров
schedule 09.02.2024

Использование глобального планирования куста
при использовании улья следующим образом: select req_time from ncsa where req_time > 90 sort by req_time limt 100; вы найдете это: 958 952 951 97 96 96 959 957 956 955 955 953 95 94 92 Я предполагаю, что в mapps дата разделена...
179 просмотров
schedule 02.06.2024

Запросы Hive через клиент Python
У меня есть Hive 0.8, установленный в кластере Hadoop, работающем в AWS EMR. Я пытаюсь сделать некоторые данные QA, которые включают в себя запуск запроса куста и выборку результатов в python, где содержится еще некоторая логика. В настоящее...
11879 просмотров
schedule 02.11.2022

JRI из Hive UDF/UDAF
У меня есть R, установленный на некоторых узлах данных, и я могу написать задания Map Reduce для вызова R через JRI. Затем, чтобы заставить R вызываться через запрос куста, я переопределяю метод terminate в GenericUDAFEvaluator и создаю там объекты...
274 просмотров
schedule 02.01.2024

Почему sqoop терпит неудачу в NumberFormatException для числового столбца во время экспорта из улья в mysql
У меня есть простой запрос улья INSERT OVERWRITE DIRECTORY '/tmp/test' SELECT flight, SUM(CASE WHEN ev=2 THEN 1 ELSE 0 END) AS req from data_table group by flight; Вывод выглядит нормально (разделенные ^A в редакторе) двумя числовыми...
4323 просмотров
schedule 19.05.2024

Как установить Cloudera Impala на EMR?
В любом случае, я могу установить единственную импалу без менеджера cloudera и без cdh. Я буду использовать версию Hadoop для Apache?
2670 просмотров
schedule 22.10.2022

сложный запрос улья
Привет, у меня есть следующая таблица: ID------ |--- time ====================== 5------- | ----200101 3--------| --- 200102 2--------|---- 200103 12 ------|---- 200101 16-------|---- 200103 18-------|---- 200106 Теперь я хочу...
6233 просмотров
schedule 31.12.2023

Есть ли способ изменить тип столбца в таблице куста?
Текущая схема: hive> describe tableA; OK id int ts timestamp Я хочу изменить столбец ts на BIGINT без удаления таблицы и заново создать ее. Является ли это возможным?
103184 просмотров
schedule 20.09.2022

Как разделить большую таблицу Hive на множество категорий
Я хочу разделить свою таблицу в улье, чтобы для каждого уникального элемента в строке он создавал раздел. Существует ~ 250 разделов для таблицы с 4 миллиардами строк, поэтому я хотел бы создать что-то вроде цикла for или отдельного. Вот мои мысли в...
3915 просмотров
schedule 06.02.2024

Аргумент куста с использованием подстановки переменных (-d | --define) не работает со строковым аргументом
Когда я запускаю сценарий улья с помощью команды улей -d arg_partition1 = "p1" -f test.hql Возвращает ошибку FAILED: SemanticException [Error 10004]: Line 3:36 Недопустимый псевдоним таблицы или ссылка на столбец "p1": (возможные...
2168 просмотров
schedule 18.11.2023

HiveQL и ранг ()
Я не могу понять HiveQL rank (). Я нашел пару реализаций UDF ранга в WWW, например прекрасный пример Эдварда . Я могу загружать функции и получать к ним доступ, но не могу заставить их делать то, что я хочу. Вот подробный пример: Загрузка UDF...
32826 просмотров
schedule 14.04.2024

Улей: Вставить, перезаписать несколько разделов
На сегодняшний день у меня есть таблица Hive, разделенная на разделы. Я хочу иметь возможность выборочно перезаписывать разделы за последние n дней (или настраиваемый список разделов). Есть ли способ сделать это без написания инструкции «INSERT...
18427 просмотров
schedule 07.04.2024