Вопросы по теме 'large-data'

Быстрый и эффективный способ создать матрицу из серии продуктов
Ax, Ay, Az: [N-by-N] B=AA (диадический продукт) Это значит : B(i,j)= [Ax(i,j);Ay(i,j);Az(i,j)]*[Ax(i,j) Ay(i,j) Az(i,j)] B(i,j): матрица 3x3. Один из способов построить B: N=2; Ax=rand(N); Ay=rand(N); Az=rand(N); %# [N-by-N]...
736 просмотров
schedule 05.10.2022

Большие наборы данных PHPExcel с несколькими вкладками - исчерпана память
Используя PHPExcel, я могу запускать каждую вкладку отдельно и получать нужные результаты, но если я добавлю их все в один excel, он просто остановится, без ошибок или чего-то еще. Каждая вкладка содержит от 60 до 80 тысяч записей, а у меня от 15...
2816 просмотров
schedule 13.02.2024

Автоматизируйте анализ нескольких файлов .txt
У меня есть много копий двух типов (a + b) txt файла, т.е.: a1.txt a2.txt a3.txt... and b1.txt b2.txt b3.txt Моя цель - запустить скрипт r, который делает следующее: read.table a1.txt #run a bunch of code that chops and changes the data...
520 просмотров
schedule 11.11.2022

Игнорировать строку ошибки при обновлении или вставке SQL Server
Мой проект должен иметь дело с огромной базой данных. В худшем случае это может быть более 80 миллионов строк . Теперь у меня есть 2 таблицы T1 и T2 . Мне нужно скопировать данные из таблицы T1 в таблицу T2 если строка в таблице T1...
3334 просмотров

Использование большой матрицы в Matlab
Я хочу использовать большую матрицу, которая не помещается в оперативной памяти. Моя матрица не разреженная. Мне это нужно для некоторых пакетных/кусковых вычислений или алгоритмов онлайн-обучения. Что мне нужно: 1. Прочитайте некоторый фрагмент...
1389 просмотров
schedule 14.04.2024

Методы опорных векторов (SVM) для больших/очень больших наборов данных
Мне интересно, какова современная эффективная (приблизительная) реализация машин опорных векторов (SVM) для больших/очень больших наборов данных (5-15M+ строк) с нелинейной границей решения (например, гауссовское ядро) ? Мне известны два...
2293 просмотров
schedule 08.11.2023

d3JS: отображать версию данных с меньшей плотностью для большого набора данных при уменьшении масштаба на линейной/областной диаграмме.
Я создаю диаграмму, аналогичную Майку Бостоку с масштабируемой диаграммой с областями. . Для моего конкретного проекта у меня есть куча датчиков, которые записывают значения каждые 30 секунд (температура, свет, влажность и звук). У меня...
3083 просмотров
schedule 12.05.2024

Python defaultdict для больших наборов данных
Я использую defaultdict для хранения миллионов фраз, поэтому моя структура данных выглядит как mydict['string'] = set(['other', 'strings']) . Кажется, это работает нормально для небольших наборов, но когда я нажимаю что-то более 10 миллионов...
1426 просмотров
schedule 20.11.2023

Панды группируются по временным интервалам
У меня есть два фрейма данных. DF1 содержит следующее: Пользователь | Интервал времени Пользователь01 | [01.01.2014 08:12:00, 01.01.2014 08:13:43] Пользователь02 | [03.01.2014 07:21:44, 04.01.2014 01:07:01] DF 2 содержит события:...
1298 просмотров
schedule 15.05.2024

Простые запросы пути к большим графикам
У меня есть вопрос о больших графических данных. Предположим, что у нас есть большой граф с почти 100 миллионами ребер и около 5 миллионов узлов, в этом случае какая лучшая известная вам платформа анализа графов может дать все простые пути длин ‹ = k...
429 просмотров

Найдите больший вектор строки в большом векторе строки
В С++, какой самый быстрый способ (или приличный способ) проверить каждый элемент в строковом векторе размером ок. 800 000, чтобы увидеть, находится ли он в другом строковом векторе размером ок. размер 200000? Моя цель — протолкнуть все струны...
115 просмотров
schedule 12.12.2022

Работа с большим количеством ярлыков
(Возможно, нубский вопрос, но...) Я пытаюсь написать пользовательский компонент, который по существу содержит довольно большую таблицу (максимум это должно быть 800 x 35 полей, из которых только до 20 x 10 видны на время). Мне было интересно, может...
44 просмотров

Дублирование строк с помощью Hibernate с большими наборами данных
Недавно я задал этот вопрос о том, как запрашивать повторяющиеся строки в БД. Ответ, который я получил, работал и был намного быстрее, но я расширил набор данных с 20 000 строк до 80 000 строк, и время, затрачиваемое на запрос, составляет минуты,...
76 просмотров
schedule 21.12.2023

Datatables большие данные json с интеллектуальным поиском, или серверная часть с регулярным выражением, или лучший подход?
Я создаю это приложение Библии с помощью Datatables. Моя проблема в том, что данные большие. Всего около 500 МБ. Всего около 32 000 строк, но это абзацы текста с тяжелой разметкой html/css. Поиск должен быть «интеллектуальным поиском»...
672 просмотров
schedule 10.05.2024

Как передать строку длиннее 200 символов в хранимую процедуру через параметр
Я застрял с одной проблемой, в моем коде я должен сделать запрос суммы всех статей, которые присутствуют в моей таблице данных, я объединяю все идентификаторы статей в одну строку, например «a1, a2, a3», и это должно работать. Но у меня большой...
443 просмотров

Django rest framework: автоматически создавать URL для каждого поля модели
У меня есть большая таблица данных (~ 30 МБ), которую я преобразовал в модель в Django. Теперь я хочу иметь доступ к этим данным через REST API. Я успешно установил инфраструктуру Django REST, но я ищу способ автоматического создания URL-адреса...
664 просмотров

Отображение очень большой таблицы сетки в R-Shiny
Я хочу отобразить большую таблицу сетки в Shiny, но не могу найти способ сделать это, так как Shiny, кажется, всегда усекает мою таблицу. Причина, по которой я использую таблицу сетки, заключается в том, что она предоставляет некоторые функции,...
827 просмотров
schedule 31.05.2024

Я хочу сравнить два набора данных, чтобы определить, какие переменные они разделяют [дубликаты]
У меня есть два показания RNAseq для двух групп, и я хотел бы их сравнить. Эти данные отображаются как ген и значение. Я хотел бы определить, какие гены являются общими для двух наборов данных, но они очень большие, и выполнение этого вручную займет...
43 просмотров
schedule 27.10.2022

Производительность Oracle JPA с данными Spring с разбивкой на страницы
Я хочу получить большой набор данных с JpaRepository , поддерживаемый таблицей Oracle. Возможен выбор: вернуть коллекцию ( List ) или Page объекта, а затем просмотреть результаты. Обратите внимание: я должен использовать каждую запись в этом...
2471 просмотров
schedule 23.09.2022

производительность oracle sql в большом наборе данных
У меня такой запрос. Я использую Jpa и получаю только первые 50 результатов, но для моей таблицы с 2 миллионами записей это занимает слишком много времени. Как увеличить производительность? SELECT * FROM TRANSACTION WHERE...
63 просмотров