Вопросы по теме 'bigdata'

Источник UrlDataSource для Solr DataImportHandler
Я изучаю фрагментацию моего источника данных для оптимального импорта данных в solr, и мне было интересно, можно ли использовать основной URL-адрес, который разделяет данные на разделы. Например, файл 1 может иметь <chunks> <chunk...
2563 просмотров
schedule 30.03.2024

Mahout LDA: какой самый большой размер словаря, который можно практически использовать?
Я запускаю LDA Mahout на EC2 (используя Whirr). Какой самый большой словарный запас вам удалось использовать на практике? Не могли бы вы поделиться некоторыми настройками Hadoop/EC2? В идеале я хотел бы запустить LDA на корпусе из 3 миллионов...
293 просмотров
schedule 27.12.2023

Какой самый быстрый способ подсчета слов в большом наборе данных с помощью R?
У меня есть база данных SQL с более чем 7 миллионами записей, каждая из которых содержит некоторый текст. В каждой записи я хочу выполнить анализ текста, например, подсчитать количество вхождений определенных слов. Я пробовал функцию R tokenize в...
263 просмотров
schedule 09.04.2024

Эффективный алгоритм работы с файлами сети больших данных для вычисления n ближайших узлов
Проблема: у меня есть два сетевых файла (скажем, NET1 и NET2) - каждый имеет набор узлов с уникальным идентификатором для каждого узла и географическими координатами X и Y. Каждый узел в NET2 должен иметь n подключений к NET1 и ID n узлов будут...
299 просмотров
schedule 25.11.2022

openacc говорит, что ошибка сегментации при разделении больших данных
Поскольку у меня есть большие данные для malloc в графическом процессоре, я должен разделить их. Как показано ниже, чтобы разделить temp1 и temp2 от начала до конца один раз: for (int start = 0; start < total; start += step) { int end =...
279 просмотров
schedule 10.02.2024

Простая функция mapreduce — использование python
Я пытаюсь лучше понять программирование больших данных, но почти ничего не знаю о python. Поэтому я использую парадигму mapreduce и практически в python я обрабатываю некоторые текстовые файлы, хранящиеся в каком-то каталоге, скажем, mydir , так что...
596 просмотров
schedule 23.11.2023

Матричная математика в R на больших наборах данных
У меня есть большая квадратная матрица, первую строку которой я взял для целей тестирования... так что начальная матрица 1x63000, что довольно много. Каждый раз, когда я пытаюсь умножить его сам на себя, используя a %*% b Каждый раз, когда я...
90 просмотров
schedule 15.02.2024

Использование большой матрицы в Matlab
Я хочу использовать большую матрицу, которая не помещается в оперативной памяти. Моя матрица не разреженная. Мне это нужно для некоторых пакетных/кусковых вычислений или алгоритмов онлайн-обучения. Что мне нужно: 1. Прочитайте некоторый фрагмент...
1389 просмотров
schedule 14.04.2024

Есть ли что-то вроде Redis DB, но не ограниченное размером оперативной памяти?
Я ищу базу данных, соответствующую этим критериям: Может быть непостоянным; Практически все ключи БД нужно обновлять раз в 3-6 часов (100М+ ключей общим размером 100Гб) Возможность быстрого выбора данных по ключу (или Primary Key) Это...
18106 просмотров
schedule 22.11.2022

HBase не хранит все записи
В моей базе данных MongoDB 1,2 млн записей. И я хочу программно хранить все эти данные в HBase . В основном я пытаюсь поместить каждую полученную запись в HBase в цикле. После завершения операции я получил всего 39912 записей на HBase. Вот...
88 просмотров
schedule 28.11.2022

как пропустить плохие записи в Hadoop Map-Reduce
я очень новичок в хаупе, может ли кто-нибудь дать мне простую программу о том, как пропустить плохие записи в карте/уменьшении хаупа? Заранее спасибо
7939 просмотров
schedule 28.02.2024

Методы опорных векторов (SVM) для больших/очень больших наборов данных
Мне интересно, какова современная эффективная (приблизительная) реализация машин опорных векторов (SVM) для больших/очень больших наборов данных (5-15M+ строк) с нелинейной границей решения (например, гауссовское ядро) ? Мне известны два...
2293 просмотров
schedule 08.11.2023

База данных модульного теста django пуста
Мы делаем проект, который использует более 10 таблиц для потока данных, но при использовании модульного теста для схемы запроса данных таблицы базы данных он возвращает пустой набор. Есть ли способ запустить './manage.py test' и получить данные из...
849 просмотров
schedule 08.01.2024

Группировка пакета данных по идентичным значениям в свинье
Я создал следующий скрипт Pig для фильтрации предложений из коллекции веб-документов (Common Crawl), в которых упоминается название фильма (из предопределенного файла данных названий фильмов), применения анализа настроений к этим предложениям и...
535 просмотров
schedule 16.02.2024

Большие данные — Hbase
Недавно я начал работать над технологией Big Data - Hadoop. Я работаю над командами Hbase. Я начал работать над платформой Cloudera VirtualBox. Я не смог выполнить команду «моментальный снимок». hbase> snapshot 'users','users_snapshot'...
344 просмотров
schedule 21.09.2022

PrimeFaces DataExporter для больших данных
У меня есть 65000 данных для получения из БД в Excel. Но компонент PF DataExporter не записывает большие данные в Excel. Что я могу использовать для этого процесса? Есть ли библиотека для этого процесса?
1523 просмотров
schedule 27.05.2024

Как вставить/обновить большой объем данных в mysql с помощью php
У меня есть лист excel с большим объемом данных. Я использую php для вставки данных на сервер mysql. у меня две проблемы 1) Мне нужно обновить строку, если идентификатор уже существует, иначе вставьте данные. 2) БОЛЬШАЯ ПРОБЛЕМА: у меня...
2071 просмотров
schedule 05.11.2022

Fortran 95: сверхбольшие числа для простого теста
Я новичок в Fortran, так как начал изучать его 2 дня назад. Я начал изучать Фортран, потому что начал разбираться в простых числах, и написал программу на питоне, которая была настолько быстрой, что могла определить, что 123098237 является простым...
790 просмотров
schedule 16.02.2024

Cassandra Ограничение количества ячеек
этот предел в 2 миллиарда ячеек на раздел все еще действителен? http://wiki.apache.org/cassandra/CassandraLimitations Допустим, вы экономите в среднем 16 байт на ячейку. Тогда вы «просто» можете сохранить 16 * 2e9 байт = 32 ГБ данных (плюс...
870 просмотров
schedule 02.04.2024

Aster Data принадлежит к какому семейству баз данных
Я знаю, что Aster Data использует SQL Map Reduce, ncluster и аналитические возможности. С точки зрения архитектуры базы данных, к какому семейству относится Aster?
219 просмотров
schedule 16.11.2023