Публикации по теме 'dask'
Из «Науки о данных в масштабе с Python и Dask» Джесси К. Дэниел
Что общего между приготовлением макарон и наукой о данных?
Почему Даск?
Из Науки о данных в масштабе с помощью Python и Dask Джесси К. Дэниел
___________________________________________________________________
Получите Наука о данных в масштабе с Python и Dask со скидкой 37% от обычной цены. Просто введите fccdaniel при оформлении заказа на manning.com . ___________________________________________________________________
В этой статье обсуждается Dask, его сравнение с..
Вопросы по теме 'dask'
оптимизация фильтрации Dask Series - ленивая версия Series.isin()
В настоящее время у меня есть следующий шаблон, встроенный в более крупное вычисление
seq1.isin(seq2[seq3].unique().compute().values)
где seq3 — логическая серия. Производительность кажется приемлемой, но она уродлива, и использование...
288 просмотров
schedule
21.09.2022
Dask - Rechunk или нарезка массива, вызывающая большое использование памяти?
Добрый день,
Я искал помощи в понимании чрезмерного (или, возможно, нет) использования памяти в моей цепочке обработки Dask.
Проблема возникает из-за выполнения следующей функции:
def create_fft_arrays(master_array, fft_size, overlap):...
969 просмотров
schedule
28.11.2022
Killed / MemoryError при создании большого dask.dataframe из отложенной коллекции
Я пытаюсь создать dask.dataframe из группы больших файлов CSV ( в настоящее время 12 файлов, 8-10 миллионов строк и 50 столбцов в каждом). Некоторые из них могут поместиться вместе в мою системную память, но все они сразу определенно не будут,...
7097 просмотров
schedule
28.03.2024
Выполнение графа даска и использование памяти
Я создаю очень большой DAG в dask для отправки распределенному планировщику, где узлы работают с фреймами данных, которые сами по себе могут быть довольно большими. Один из шаблонов состоит в том, что у меня есть около 50-60 функций, которые...
960 просмотров
schedule
19.12.2023
Как эффективно отправить большой массив numpy в кластер с помощью Dask.array
У меня есть большой массив NumPy на моей локальной машине, который я хочу распараллелить с Dask.array в кластере.
import numpy as np
x = np.random.random((1000, 1000, 1000))
Однако, когда я использую dask.array, я обнаруживаю, что мой...
2136 просмотров
schedule
28.02.2024
Подмножество Dask DataFrames
Является ли это допустимым способом загрузки подмножеств кадра данных dask в память:
while i < len_df:
j = i + batch_size
if j > len_df:
j = len_df
subset = df.loc[i:j,'source_country_codes'].compute()
Я где-то...
853 просмотров
schedule
17.05.2024
Как запустить параллельные задания Python на пряжи с помощью Dask?
У меня есть пара вопросов по использованию Dask с Hadoop / Yarn.
1) Как подключить Dask к Hadoop / YARN и распараллелить задание? Когда я пытаюсь использовать:
from dask.distributed import Client
client = Client('Mynamenode:50070')...
774 просмотров
schedule
29.01.2024
Создайте единый фрейм данных pandas из нескольких фреймов данных OHLCV
У меня есть папка, содержащая исторические внутридневные данные компонентов S & P500 (частота 1 мин), сохраненные в виде отдельных таблиц .parquet (500 файлов, всего 7,60 ГБ).
Каждая таблица имеет индекс datetime и пять столбцов ('Open', 'High',...
610 просмотров
schedule
26.10.2022
добавить столбец dask.array в dask.dataframe
У меня есть dask dataframe и массив dask с одинаковым количеством строк в том же логическом порядке. Строки фрейма данных индексируются строками. Я пытаюсь добавить один из столбцов массива в фрейм данных. Я пробовал несколько способов, каждый из...
2555 просмотров
schedule
05.11.2023
Ускорьте тестирование параметров с помощью Dask
У меня есть кадр данных временных рядов с примерно 10 столбцами, где я выполняю манипуляции с временными рядами, чтобы вернуть результаты данных стратегии. Я хотел бы проверить 2 параметра, поскольку они могут влиять или не влиять друг на друга. При...
213 просмотров
schedule
12.05.2024
Присвойте условные значения столбцам в Dask
Я пытаюсь выполнить условное присвоение строк определенного столбца: target . Я провел некоторое исследование, и мне показалось, что ответ был дан здесь: "Как выполнять обработку строк и назначение элементов в dask" .
Я воспроизведу свою...
1358 просмотров
schedule
04.06.2024
Распараллеливание на кластерном даске
Я ищу лучший способ распараллелить на кластере следующую проблему. У меня есть несколько файлов
папка / file001.csv
папка / file002.csv
:
папка / file100.csv
Они не пересекаются по отношению к key , который я хочу использовать для...
225 просмотров
schedule
04.05.2024
Streamz с распределенным Dask
Основываясь на документации streamz, можно использовать распространяемую dask кластер следующим образом:
from distributed import Client
client = Client('tcp://localhost:8786') # Connect to scheduler that has distributed workers
from streamz...
292 просмотров
schedule
29.04.2024
Маршрут к страницам отладки dask worker
Документы говорят:
Debug Worker pages for each worker at http://worker-address:8789.
These pages have detailed diagnostic information about the worker.
Like the diagnostic scheduler pages they are of more utility to
developers or to people...
23 просмотров
schedule
15.11.2023
Используйте несколько планировщиков Dask
Мы используем Dask для распределения вычислительных задач на несколько серверов. Есть 1 dask-scheduler и 5 dask-worker серверов. Мой вопрос: есть ли способ, чтобы можно было использовать несколько планировщиков dask? Я спрашиваю об этом, потому что...
470 просмотров
schedule
26.09.2022
Почему преобразование серии Dask в категориальное замедление вычислений?
У меня есть набор данных ~ 5,5 ГБ, хранящийся в Parquet. У меня есть серия в этом наборе данных account_language , которая изначально имеет тип объекта (строка).
Может ли кто-нибудь объяснить, почему выполнение того же расчета ПОСЛЕ...
140 просмотров
schedule
12.02.2024
Как работает дистрибутив в dask?
У меня есть кадр данных:
import numpy as np
import pandas as pd
import dask.dataframe as dd
a = {'b':['cat','bat','cat','cat','bat','No Data','bat','No Data'],
'c':['str1','str2','str3', 'str4','str5','str6','str7', 'str8']
}
df11 =...
82 просмотров
schedule
02.02.2024
Даск не запускает рабочих
Я пытаюсь использовать Dask для выполнения групповой операции с Dataframe. Приведенный ниже код не работает, но кажется, что если я инициализирую клиент с другой консоли, код работает, даже если я ничего не вижу на панели инструментов (...
1172 просмотров
schedule
05.01.2024
Запустите множество подпроцессов на множество разных узлов HPC с помощью Joblib+Dask.
Я пытаюсь запустить программу на Python, которая в какой-то момент выполняет множество (тысячи) смущающе параллельных процессов, которые представляют собой вызовы подпроцессов для другого программного обеспечения. Я запускаю это в кластере slurm на...
282 просмотров
schedule
11.12.2022
xarray с dask sel работает медленно
Серия из примерно 90 файлов netCDF, каждый размером около 27 МБ каждый, открытых с помощью xarray open_mfdataset, занимает много времени для загрузки небольшого выделения пространства-времени.
Разбиение на части дает незначительный выигрыш....
394 просмотров
schedule
11.02.2024