Публикации по тематике bigdata

Вопросы по теме 'bigdata'

Источник UrlDataSource для Solr DataImportHandler

Я изучаю фрагментацию моего источника данных для оптимального импорта данных в solr, и мне было интересно, можно ли использовать основной URL-адрес, который разделяет данные на разделы. Например, файл 1 может иметь <chunks> <chunk...

2563 просмотров

bigdata indexing solr

30.03.2024

Mahout LDA: какой самый большой размер словаря, который можно практически использовать?

Я запускаю LDA Mahout на EC2 (используя Whirr). Какой самый большой словарный запас вам удалось использовать на практике? Не могли бы вы поделиться некоторыми настройками Hadoop/EC2? В идеале я хотел бы запустить LDA на корпусе из 3 миллионов...

293 просмотров

amazon-ec2 bigdata lda mahout

27.12.2023

Какой самый быстрый способ подсчета слов в большом наборе данных с помощью R?

У меня есть база данных SQL с более чем 7 миллионами записей, каждая из которых содержит некоторый текст. В каждой записи я хочу выполнить анализ текста, например, подсчитать количество вхождений определенных слов. Я пробовал функцию R tokenize в...

263 просмотров

r mapreduce bigdata

09.04.2024

Эффективный алгоритм работы с файлами сети больших данных для вычисления n ближайших узлов

Проблема: у меня есть два сетевых файла (скажем, NET1 и NET2) - каждый имеет набор узлов с уникальным идентификатором для каждого узла и географическими координатами X и Y. Каждый узел в NET2 должен иметь n подключений к NET1 и ID n узлов будут...

299 просмотров

python r c++ bigdata algorithm

25.11.2022

openacc говорит, что ошибка сегментации при разделении больших данных

Поскольку у меня есть большие данные для malloc в графическом процессоре, я должен разделить их. Как показано ниже, чтобы разделить temp1 и temp2 от начала до конца один раз: for (int start = 0; start < total; start += step) { int end =...

279 просмотров

bigdata cuda openacc

10.02.2024

Простая функция mapreduce — использование python

Я пытаюсь лучше понять программирование больших данных, но почти ничего не знаю о python. Поэтому я использую парадигму mapreduce и практически в python я обрабатываю некоторые текстовые файлы, хранящиеся в каком-то каталоге, скажем, mydir , так что...

596 просмотров

python mapreduce bigdata

23.11.2023

Матричная математика в R на больших наборах данных

У меня есть большая квадратная матрица, первую строку которой я взял для целей тестирования... так что начальная матрица 1x63000, что довольно много. Каждый раз, когда я пытаюсь умножить его сам на себя, используя a %*% b Каждый раз, когда я...

90 просмотров

r bigdata matrix math

15.02.2024

Использование большой матрицы в Matlab

Я хочу использовать большую матрицу, которая не помещается в оперативной памяти. Моя матрица не разреженная. Мне это нужно для некоторых пакетных/кусковых вычислений или алгоритмов онлайн-обучения. Что мне нужно: 1. Прочитайте некоторый фрагмент...

1389 просмотров

matlab bigdata matrix large-data

14.04.2024

Есть ли что-то вроде Redis DB, но не ограниченное размером оперативной памяти?

Я ищу базу данных, соответствующую этим критериям: Может быть непостоянным; Практически все ключи БД нужно обновлять раз в 3-6 часов (100М+ ключей общим размером 100Гб) Возможность быстрого выбора данных по ключу (или Primary Key) Это...

18106 просмотров

nosql database redis bigdata

22.11.2022

HBase не хранит все записи

В моей базе данных MongoDB 1,2 млн записей. И я хочу программно хранить все эти данные в HBase . В основном я пытаюсь поместить каждую полученную запись в HBase в цикле. После завершения операции я получил всего 39912 записей на HBase. Вот...

88 просмотров

java mongodb hadoop bigdata hbase

28.11.2022

как пропустить плохие записи в Hadoop Map-Reduce

я очень новичок в хаупе, может ли кто-нибудь дать мне простую программу о том, как пропустить плохие записи в карте/уменьшении хаупа? Заранее спасибо

7939 просмотров

hadoop mapreduce bigdata

28.02.2024

Методы опорных векторов (SVM) для больших/очень больших наборов данных

Мне интересно, какова современная эффективная (приблизительная) реализация машин опорных векторов (SVM) для больших/очень больших наборов данных (5-15M+ строк) с нелинейной границей решения (например, гауссовское ядро) ? Мне известны два...

2293 просмотров

c++ bigdata svm large-data

08.11.2023

База данных модульного теста django пуста

Мы делаем проект, который использует более 10 таблиц для потока данных, но при использовании модульного теста для схемы запроса данных таблицы базы данных он возвращает пустой набор. Есть ли способ запустить './manage.py test' и получить данные из...

849 просмотров

django database testing bigdata empty-list

08.01.2024

Группировка пакета данных по идентичным значениям в свинье

Я создал следующий скрипт Pig для фильтрации предложений из коллекции веб-документов (Common Crawl), в которых упоминается название фильма (из предопределенного файла данных названий фильмов), применения анализа настроений к этим предложениям и...

535 просмотров

hadoop mapreduce bigdata apache-pig

16.02.2024

Большие данные — Hbase

Недавно я начал работать над технологией Big Data - Hadoop. Я работаю над командами Hbase. Я начал работать над платформой Cloudera VirtualBox. Я не смог выполнить команду «моментальный снимок». hbase> snapshot 'users','users_snapshot'...

344 просмотров

bigdata hbase

21.09.2022

PrimeFaces DataExporter для больших данных

У меня есть 65000 данных для получения из БД в Excel. Но компонент PF DataExporter не записывает большие данные в Excel. Что я могу использовать для этого процесса? Есть ли библиотека для этого процесса?

1523 просмотров

excel bigdata jsf primefaces data-export

27.05.2024

Как вставить/обновить большой объем данных в mysql с помощью php

У меня есть лист excel с большим объемом данных. Я использую php для вставки данных на сервер mysql. у меня две проблемы 1) Мне нужно обновить строку, если идентификатор уже существует, иначе вставьте данные. 2) БОЛЬШАЯ ПРОБЛЕМА: у меня...

2071 просмотров

mysql php excel bigdata

05.11.2022

Fortran 95: сверхбольшие числа для простого теста

Я новичок в Fortran, так как начал изучать его 2 дня назад. Я начал изучать Фортран, потому что начал разбираться в простых числах, и написал программу на питоне, которая была настолько быстрой, что могла определить, что 123098237 является простым...

790 просмотров

gfortran bigdata fortran primes fortran95

16.02.2024

Cassandra Ограничение количества ячеек

этот предел в 2 миллиарда ячеек на раздел все еще действителен? http://wiki.apache.org/cassandra/CassandraLimitations Допустим, вы экономите в среднем 16 байт на ячейку. Тогда вы «просто» можете сохранить 16 * 2e9 байт = 32 ГБ данных (плюс...

870 просмотров

cassandra limit bigdata cell

02.04.2024

Aster Data принадлежит к какому семейству баз данных

Я знаю, что Aster Data использует SQL Map Reduce, ncluster и аналитические возможности. С точки зрения архитектуры базы данных, к какому семейству относится Aster?

219 просмотров

analytics bigdata teradata-aster

16.11.2023

Вопросы по теме 'bigdata'

Похожие вопросы