Публикации по теме 'dask'


Из «Науки о данных в масштабе с Python и Dask» Джесси К. Дэниел
Что общего между приготовлением макарон и наукой о данных? Почему Даск? Из Науки о данных в масштабе с помощью Python и Dask Джесси К. Дэниел ___________________________________________________________________ Получите Наука о данных в масштабе с Python и Dask со скидкой 37% от обычной цены. Просто введите fccdaniel при оформлении заказа на manning.com . ___________________________________________________________________ В этой статье обсуждается Dask, его сравнение с..

Вопросы по теме 'dask'

оптимизация фильтрации Dask Series - ленивая версия Series.isin()
В настоящее время у меня есть следующий шаблон, встроенный в более крупное вычисление seq1.isin(seq2[seq3].unique().compute().values) где seq3 — логическая серия. Производительность кажется приемлемой, но она уродлива, и использование...
288 просмотров
schedule 21.09.2022

Dask - Rechunk или нарезка массива, вызывающая большое использование памяти?
Добрый день, Я искал помощи в понимании чрезмерного (или, возможно, нет) использования памяти в моей цепочке обработки Dask. Проблема возникает из-за выполнения следующей функции: def create_fft_arrays(master_array, fft_size, overlap):...
969 просмотров
schedule 28.11.2022

Killed / MemoryError при создании большого dask.dataframe из отложенной коллекции
Я пытаюсь создать dask.dataframe из группы больших файлов CSV ( в настоящее время 12 файлов, 8-10 миллионов строк и 50 столбцов в каждом). Некоторые из них могут поместиться вместе в мою системную память, но все они сразу определенно не будут,...
7097 просмотров
schedule 28.03.2024

Выполнение графа даска и использование памяти
Я создаю очень большой DAG в dask для отправки распределенному планировщику, где узлы работают с фреймами данных, которые сами по себе могут быть довольно большими. Один из шаблонов состоит в том, что у меня есть около 50-60 функций, которые...
960 просмотров
schedule 19.12.2023

Как эффективно отправить большой массив numpy в кластер с помощью Dask.array
У меня есть большой массив NumPy на моей локальной машине, который я хочу распараллелить с Dask.array в кластере. import numpy as np x = np.random.random((1000, 1000, 1000)) Однако, когда я использую dask.array, я обнаруживаю, что мой...
2136 просмотров
schedule 28.02.2024

Подмножество Dask DataFrames
Является ли это допустимым способом загрузки подмножеств кадра данных dask в память: while i < len_df: j = i + batch_size if j > len_df: j = len_df subset = df.loc[i:j,'source_country_codes'].compute() Я где-то...
853 просмотров
schedule 17.05.2024

Как запустить параллельные задания Python на пряжи с помощью Dask?
У меня есть пара вопросов по использованию Dask с Hadoop / Yarn. 1) Как подключить Dask к Hadoop / YARN и распараллелить задание? Когда я пытаюсь использовать: from dask.distributed import Client client = Client('Mynamenode:50070')...
774 просмотров

Создайте единый фрейм данных pandas из нескольких фреймов данных OHLCV
У меня есть папка, содержащая исторические внутридневные данные компонентов S & P500 (частота 1 мин), сохраненные в виде отдельных таблиц .parquet (500 файлов, всего 7,60 ГБ). Каждая таблица имеет индекс datetime и пять столбцов ('Open', 'High',...
610 просмотров
schedule 26.10.2022

добавить столбец dask.array в dask.dataframe
У меня есть dask dataframe и массив dask с одинаковым количеством строк в том же логическом порядке. Строки фрейма данных индексируются строками. Я пытаюсь добавить один из столбцов массива в фрейм данных. Я пробовал несколько способов, каждый из...
2555 просмотров
schedule 05.11.2023

Ускорьте тестирование параметров с помощью Dask
У меня есть кадр данных временных рядов с примерно 10 столбцами, где я выполняю манипуляции с временными рядами, чтобы вернуть результаты данных стратегии. Я хотел бы проверить 2 параметра, поскольку они могут влиять или не влиять друг на друга. При...
213 просмотров
schedule 12.05.2024

Присвойте условные значения столбцам в Dask
Я пытаюсь выполнить условное присвоение строк определенного столбца: target . Я провел некоторое исследование, и мне показалось, что ответ был дан здесь: "Как выполнять обработку строк и назначение элементов в dask" . Я воспроизведу свою...
1358 просмотров
schedule 04.06.2024

Распараллеливание на кластерном даске
Я ищу лучший способ распараллелить на кластере следующую проблему. У меня есть несколько файлов папка / file001.csv папка / file002.csv : папка / file100.csv Они не пересекаются по отношению к key , который я хочу использовать для...
225 просмотров
schedule 04.05.2024

Streamz с распределенным Dask
Основываясь на документации streamz, можно использовать распространяемую dask кластер следующим образом: from distributed import Client client = Client('tcp://localhost:8786') # Connect to scheduler that has distributed workers from streamz...
292 просмотров
schedule 29.04.2024

Маршрут к страницам отладки dask worker
Документы говорят: Debug Worker pages for each worker at http://worker-address:8789. These pages have detailed diagnostic information about the worker. Like the diagnostic scheduler pages they are of more utility to developers or to people...
23 просмотров
schedule 15.11.2023

Используйте несколько планировщиков Dask
Мы используем Dask для распределения вычислительных задач на несколько серверов. Есть 1 dask-scheduler и 5 dask-worker серверов. Мой вопрос: есть ли способ, чтобы можно было использовать несколько планировщиков dask? Я спрашиваю об этом, потому что...
470 просмотров
schedule 26.09.2022

Почему преобразование серии Dask в категориальное замедление вычислений?
У меня есть набор данных ~ 5,5 ГБ, хранящийся в Parquet. У меня есть серия в этом наборе данных account_language , которая изначально имеет тип объекта (строка). Может ли кто-нибудь объяснить, почему выполнение того же расчета ПОСЛЕ...
140 просмотров
schedule 12.02.2024

Как работает дистрибутив в dask?
У меня есть кадр данных: import numpy as np import pandas as pd import dask.dataframe as dd a = {'b':['cat','bat','cat','cat','bat','No Data','bat','No Data'], 'c':['str1','str2','str3', 'str4','str5','str6','str7', 'str8'] } df11 =...
82 просмотров
schedule 02.02.2024

Даск не запускает рабочих
Я пытаюсь использовать Dask для выполнения групповой операции с Dataframe. Приведенный ниже код не работает, но кажется, что если я инициализирую клиент с другой консоли, код работает, даже если я ничего не вижу на панели инструментов (...
1172 просмотров
schedule 05.01.2024

Запустите множество подпроцессов на множество разных узлов HPC с помощью Joblib+Dask.
Я пытаюсь запустить программу на Python, которая в какой-то момент выполняет множество (тысячи) смущающе параллельных процессов, которые представляют собой вызовы подпроцессов для другого программного обеспечения. Я запускаю это в кластере slurm на...
282 просмотров

xarray с dask sel работает медленно
Серия из примерно 90 файлов netCDF, каждый размером около 27 МБ каждый, открытых с помощью xarray open_mfdataset, занимает много времени для загрузки небольшого выделения пространства-времени. Разбиение на части дает незначительный выигрыш....
394 просмотров
schedule 11.02.2024