Публикации по теме 'hive'
Вторник Flutter Benchmark: SQLite против Hive — как нас обманывают популярные статьи
Всем привет. Это очередная история нашего регулярного сегмента «тестирование очевидных вещей по вторникам». И в этот раз мое внимание привлекла тема выбора базы данных для локального хранения данных во Flutter-приложении. Эта тема очень заезжена, и о ней написано множество статей, большинство из которых касается лишь практического сравнения трех альтернативных вариантов хранения данных: Hive, SQLite и SharedPreferences.
Я не буду тратить ваше время на описание каждого из них,..
Большие данные: обзор apache Hadoop
Фундаментальная идея MRv2 состоит в том, чтобы разделить две основные функции JobTracker, управление ресурсами и планирование/мониторинг заданий, на отдельные демоны. Идея состоит в том, чтобы иметь глобальный ResourceManager (RM) и ApplicationMaster для каждого приложения (AM). Приложение представляет собой либо одно задание в классическом понимании заданий Map-Reduce, либо группу заданий DAG. Дополнительную информацию см. в курсе работы с большими данными Hadoop .
ResourceManager и..
Вопросы по теме 'hive'
Извлечь хост + одну папку из пути
Не могли бы вы помочь мне понять регулярное выражение, которое будет извлекаться из URL-адреса:
имя хоста, если в пути, следующем за ним, не указана папка, например.
http://jj.com/' -> 'jj.com
http://jj.com/index.php' -> 'jj.com...
184 просмотров
schedule
12.11.2022
регулярное выражение для доступа к журналу в улье serde
Я хочу извлечь (ip, requestUrl, timeStamp) из журналов доступа для загрузки в базу данных куста. Одна строка из журнала доступа выглядит следующим образом.
66.249.68.6 - - [14/Jan/2012:06:25:03 -0800] "GET /example.com HTTP/1.1" 200 708 "-"...
18764 просмотров
schedule
27.11.2022
Как сделать двойной разделитель в Hive?
скажем, у меня есть несколько образцов строк данных
site1^http://article1.com?datacoll=5|4|3|2|1&test=yes
site1^http://article1.com?test=yes
site1^http://article1.com?datacoll=5|4|3|2|1&test=yes
Я хочу создать такую таблицу, чтобы...
1307 просмотров
schedule
03.10.2022
append не работает с кустом
Я пытаюсь вставить данные из таблицы a в таблицу b (оба являются внешними таблицами), в основном полагаясь на функцию добавления среды. Я пробовал то же самое с управляемыми таблицами, но поведение было таким же.
Аппенд как-то не работает у меня....
1318 просмотров
schedule
13.11.2023
как выбрать данные из улья с определенным разделом?
каждый. вот взаимодействие с ульем:
hive> show partitions TABLENAME
pt=2012.07.28.08/is_complete=1
pt=2012.07.28.09/is_complete=1
pt=2012.07.28.10/is_complete=1
pt=2012.07.28.11/is_complete=1
hive> select * from TABLENAME where...
61332 просмотров
schedule
31.10.2022
Snappy или LZO для журналов, которые затем используются Hadoop
У меня большой объем услуг. Я регистрирую события. Каждые несколько минут я архивирую журналы с помощью gzip и перемещаю их на S3. Оттуда мы обрабатываем журналы с помощью Amazon Hadoop — эластичного mapreduce — через Hive.
Прямо сейчас на...
2512 просмотров
schedule
06.10.2022
Фаза редуктора вообще не запускается. Это всегда «редуктор = 0%»
Я ждал целую вечность, чтобы увидеть начало фазы редуктора, но она не начинается. Я пробовал форматировать namenode, но все та же проблема. Я сталкиваюсь с этой проблемой везде, где должен работать редуктор. Может ли кто-нибудь помочь мне в этом...
1064 просмотров
schedule
05.12.2022
Запускайте запросы куста и собирайте информацию о заданиях
Я хотел бы запустить список сгенерированных запросов HIVE. Для каждого я хотел бы получить MR job_id (или идентификаторы, в случае нескольких этапов). А затем, с этим job_id, собрать статистику из трекера заданий (кумулятивный ЦП, прочитанные...
14013 просмотров
schedule
24.01.2024
Процентили для нескольких столбцов
У меня есть таблица с примерно 200-250 столбцами, и я хочу вычислить процентиль для каждого из этих столбцов.
Hive предоставляет функцию Percentile(int_exp,p), которая возвращает значение p-го процентиля столбца int_exp. Но кажется излишним...
740 просмотров
schedule
09.02.2024
Использование глобального планирования куста
при использовании улья следующим образом:
select req_time from ncsa where req_time > 90 sort by req_time limt 100;
вы найдете это:
958
952
951
97
96
96
959
957
956
955
955
953
95
94
92
Я предполагаю, что в mapps дата разделена...
179 просмотров
schedule
02.06.2024
Запросы Hive через клиент Python
У меня есть Hive 0.8, установленный в кластере Hadoop, работающем в AWS EMR.
Я пытаюсь сделать некоторые данные QA, которые включают в себя запуск запроса куста и выборку результатов в python, где содержится еще некоторая логика.
В настоящее...
11879 просмотров
schedule
02.11.2022
JRI из Hive UDF/UDAF
У меня есть R, установленный на некоторых узлах данных, и я могу написать задания Map Reduce для вызова R через JRI.
Затем, чтобы заставить R вызываться через запрос куста, я переопределяю метод terminate в GenericUDAFEvaluator и создаю там объекты...
274 просмотров
schedule
02.01.2024
Почему sqoop терпит неудачу в NumberFormatException для числового столбца во время экспорта из улья в mysql
У меня есть простой запрос улья
INSERT OVERWRITE DIRECTORY '/tmp/test'
SELECT
flight,
SUM(CASE WHEN ev=2 THEN 1 ELSE 0 END) AS req
from data_table
group by flight;
Вывод выглядит нормально (разделенные ^A в редакторе) двумя числовыми...
4323 просмотров
schedule
19.05.2024
Как установить Cloudera Impala на EMR?
В любом случае, я могу установить единственную импалу без менеджера cloudera и без cdh. Я буду использовать версию Hadoop для Apache?
2670 просмотров
schedule
22.10.2022
сложный запрос улья
Привет, у меня есть следующая таблица:
ID------ |--- time
======================
5------- | ----200101
3--------| --- 200102
2--------|---- 200103
12 ------|---- 200101
16-------|---- 200103
18-------|---- 200106
Теперь я хочу...
6233 просмотров
schedule
31.12.2023
Есть ли способ изменить тип столбца в таблице куста?
Текущая схема:
hive> describe tableA;
OK
id int
ts timestamp
Я хочу изменить столбец ts на BIGINT без удаления таблицы и заново создать ее. Является ли это возможным?
103184 просмотров
schedule
20.09.2022
Как разделить большую таблицу Hive на множество категорий
Я хочу разделить свою таблицу в улье, чтобы для каждого уникального элемента в строке он создавал раздел. Существует ~ 250 разделов для таблицы с 4 миллиардами строк, поэтому я хотел бы создать что-то вроде цикла for или отдельного. Вот мои мысли в...
3915 просмотров
schedule
06.02.2024
Аргумент куста с использованием подстановки переменных (-d | --define) не работает со строковым аргументом
Когда я запускаю сценарий улья с помощью команды
улей -d arg_partition1 = "p1" -f test.hql
Возвращает ошибку
FAILED: SemanticException [Error 10004]: Line 3:36 Недопустимый псевдоним таблицы или ссылка на столбец "p1": (возможные...
2168 просмотров
schedule
18.11.2023
HiveQL и ранг ()
Я не могу понять HiveQL rank (). Я нашел пару реализаций UDF ранга в WWW, например прекрасный пример Эдварда . Я могу загружать функции и получать к ним доступ, но не могу заставить их делать то, что я хочу. Вот подробный пример:
Загрузка UDF...
32826 просмотров
schedule
14.04.2024
Улей: Вставить, перезаписать несколько разделов
На сегодняшний день у меня есть таблица Hive, разделенная на разделы. Я хочу иметь возможность выборочно перезаписывать разделы за последние n дней (или настраиваемый список разделов).
Есть ли способ сделать это без написания инструкции «INSERT...
18427 просмотров
schedule
07.04.2024