Вопросы по теме 'bigdata'
Источник UrlDataSource для Solr DataImportHandler
Я изучаю фрагментацию моего источника данных для оптимального импорта данных в solr, и мне было интересно, можно ли использовать основной URL-адрес, который разделяет данные на разделы.
Например, файл 1 может иметь
<chunks>
<chunk...
2563 просмотров
schedule
30.03.2024
Mahout LDA: какой самый большой размер словаря, который можно практически использовать?
Я запускаю LDA Mahout на EC2 (используя Whirr). Какой самый большой словарный запас вам удалось использовать на практике? Не могли бы вы поделиться некоторыми настройками Hadoop/EC2?
В идеале я хотел бы запустить LDA на корпусе из 3 миллионов...
293 просмотров
schedule
27.12.2023
Какой самый быстрый способ подсчета слов в большом наборе данных с помощью R?
У меня есть база данных SQL с более чем 7 миллионами записей, каждая из которых содержит некоторый текст. В каждой записи я хочу выполнить анализ текста, например, подсчитать количество вхождений определенных слов. Я пробовал функцию R tokenize в...
263 просмотров
schedule
09.04.2024
Эффективный алгоритм работы с файлами сети больших данных для вычисления n ближайших узлов
Проблема: у меня есть два сетевых файла (скажем, NET1 и NET2) - каждый имеет набор узлов с уникальным идентификатором для каждого узла и географическими координатами X и Y. Каждый узел в NET2 должен иметь n подключений к NET1 и ID n узлов будут...
299 просмотров
schedule
25.11.2022
openacc говорит, что ошибка сегментации при разделении больших данных
Поскольку у меня есть большие данные для malloc в графическом процессоре, я должен разделить их. Как показано ниже, чтобы разделить temp1 и temp2 от начала до конца один раз:
for (int start = 0; start < total; start += step) {
int end =...
279 просмотров
schedule
10.02.2024
Простая функция mapreduce — использование python
Я пытаюсь лучше понять программирование больших данных, но почти ничего не знаю о python. Поэтому я использую парадигму mapreduce и практически в python я обрабатываю некоторые текстовые файлы, хранящиеся в каком-то каталоге, скажем, mydir , так что...
596 просмотров
schedule
23.11.2023
Матричная математика в R на больших наборах данных
У меня есть большая квадратная матрица, первую строку которой я взял для целей тестирования... так что начальная матрица 1x63000, что довольно много. Каждый раз, когда я пытаюсь умножить его сам на себя, используя
a %*% b
Каждый раз, когда я...
90 просмотров
schedule
15.02.2024
Использование большой матрицы в Matlab
Я хочу использовать большую матрицу, которая не помещается в оперативной памяти. Моя матрица не разреженная. Мне это нужно для некоторых пакетных/кусковых вычислений или алгоритмов онлайн-обучения.
Что мне нужно: 1. Прочитайте некоторый фрагмент...
1389 просмотров
schedule
14.04.2024
Есть ли что-то вроде Redis DB, но не ограниченное размером оперативной памяти?
Я ищу базу данных, соответствующую этим критериям:
Может быть непостоянным;
Практически все ключи БД нужно обновлять раз в 3-6 часов (100М+ ключей общим размером 100Гб)
Возможность быстрого выбора данных по ключу (или Primary Key)
Это...
18106 просмотров
schedule
22.11.2022
HBase не хранит все записи
В моей базе данных MongoDB 1,2 млн записей. И я хочу программно хранить все эти данные в HBase . В основном я пытаюсь поместить каждую полученную запись в HBase в цикле. После завершения операции я получил всего 39912 записей на HBase.
Вот...
88 просмотров
schedule
28.11.2022
как пропустить плохие записи в Hadoop Map-Reduce
я очень новичок в хаупе, может ли кто-нибудь дать мне простую программу о том, как пропустить плохие записи в карте/уменьшении хаупа?
Заранее спасибо
7939 просмотров
schedule
28.02.2024
Методы опорных векторов (SVM) для больших/очень больших наборов данных
Мне интересно, какова современная эффективная (приблизительная) реализация машин опорных векторов (SVM) для больших/очень больших наборов данных (5-15M+ строк) с нелинейной границей решения (например, гауссовское ядро) ?
Мне известны два...
2293 просмотров
schedule
08.11.2023
База данных модульного теста django пуста
Мы делаем проект, который использует более 10 таблиц для потока данных, но при использовании модульного теста для схемы запроса данных таблицы базы данных он возвращает пустой набор. Есть ли способ запустить './manage.py test' и получить данные из...
849 просмотров
schedule
08.01.2024
Группировка пакета данных по идентичным значениям в свинье
Я создал следующий скрипт Pig для фильтрации предложений из коллекции веб-документов (Common Crawl), в которых упоминается название фильма (из предопределенного файла данных названий фильмов), применения анализа настроений к этим предложениям и...
535 просмотров
schedule
16.02.2024
Большие данные — Hbase
Недавно я начал работать над технологией Big Data - Hadoop. Я работаю над командами Hbase. Я начал работать над платформой Cloudera VirtualBox. Я не смог выполнить команду «моментальный снимок».
hbase> snapshot 'users','users_snapshot'...
344 просмотров
schedule
21.09.2022
PrimeFaces DataExporter для больших данных
У меня есть 65000 данных для получения из БД в Excel. Но компонент PF DataExporter не записывает большие данные в Excel. Что я могу использовать для этого процесса? Есть ли библиотека для этого процесса?
1523 просмотров
schedule
27.05.2024
Как вставить/обновить большой объем данных в mysql с помощью php
У меня есть лист excel с большим объемом данных. Я использую php для вставки данных на сервер mysql.
у меня две проблемы
1) Мне нужно обновить строку, если идентификатор уже существует, иначе вставьте данные.
2) БОЛЬШАЯ ПРОБЛЕМА: у меня...
2071 просмотров
schedule
05.11.2022
Fortran 95: сверхбольшие числа для простого теста
Я новичок в Fortran, так как начал изучать его 2 дня назад. Я начал изучать Фортран, потому что начал разбираться в простых числах, и написал программу на питоне, которая была настолько быстрой, что могла определить, что 123098237 является простым...
790 просмотров
schedule
16.02.2024
Cassandra Ограничение количества ячеек
этот предел в 2 миллиарда ячеек на раздел все еще действителен?
http://wiki.apache.org/cassandra/CassandraLimitations
Допустим, вы экономите в среднем 16 байт на ячейку. Тогда вы «просто» можете сохранить 16 * 2e9 байт = 32 ГБ данных (плюс...
870 просмотров
schedule
02.04.2024
Aster Data принадлежит к какому семейству баз данных
Я знаю, что Aster Data использует SQL Map Reduce, ncluster и аналитические возможности. С точки зрения архитектуры базы данных, к какому семейству относится Aster?
219 просмотров
schedule
16.11.2023