Вопросы по теме 'dask-distributed'

Как запустить параллельные задания Python на пряжи с помощью Dask?
У меня есть пара вопросов по использованию Dask с Hadoop / Yarn. 1) Как подключить Dask к Hadoop / YARN и распараллелить задание? Когда я пытаюсь использовать: from dask.distributed import Client client = Client('Mynamenode:50070')...
774 просмотров

Распараллеливание на кластерном даске
Я ищу лучший способ распараллелить на кластере следующую проблему. У меня есть несколько файлов папка / file001.csv папка / file002.csv : папка / file100.csv Они не пересекаются по отношению к key , который я хочу использовать для...
225 просмотров
schedule 04.05.2024

Streamz с распределенным Dask
Основываясь на документации streamz, можно использовать распространяемую dask кластер следующим образом: from distributed import Client client = Client('tcp://localhost:8786') # Connect to scheduler that has distributed workers from streamz...
292 просмотров
schedule 29.04.2024

Маршрут к страницам отладки dask worker
Документы говорят: Debug Worker pages for each worker at http://worker-address:8789. These pages have detailed diagnostic information about the worker. Like the diagnostic scheduler pages they are of more utility to developers or to people...
23 просмотров
schedule 15.11.2023

Используйте несколько планировщиков Dask
Мы используем Dask для распределения вычислительных задач на несколько серверов. Есть 1 dask-scheduler и 5 dask-worker серверов. Мой вопрос: есть ли способ, чтобы можно было использовать несколько планировщиков dask? Я спрашиваю об этом, потому что...
470 просмотров
schedule 26.09.2022

Как работает дистрибутив в dask?
У меня есть кадр данных: import numpy as np import pandas as pd import dask.dataframe as dd a = {'b':['cat','bat','cat','cat','bat','No Data','bat','No Data'], 'c':['str1','str2','str3', 'str4','str5','str6','str7', 'str8'] } df11 =...
82 просмотров
schedule 02.02.2024

Как передать данные, превышающие размер VRAM, в GPU?
Я пытаюсь передать в свой графический процессор больше данных, чем у меня есть VRAM, что приводит к следующей ошибке. CudaAPIError: Call to cuMemAlloc results in CUDA_ERROR_OUT_OF_MEMORY Я создал этот код, чтобы воссоздать проблему: from...
494 просмотров
schedule 25.10.2023

dask.delayed KeyError с распределенным планировщиком
У меня есть функция interpolate_to_particles , написанная на c и обернутая ctypes . Я хочу использовать dask.delayed для выполнения серии вызовов этой функции. Код успешно работает без dask # Interpolate w/o dask result =...
316 просмотров

Использование Dask LocalCluster () в модульной кодовой базе Python
Я пытаюсь использовать LocalCluster Dask Distributed для запуска кодируйте параллельно, используя все ядра одной машины. Рассмотрим пример конвейера данных Python со структурой папок ниже. sample_dask_program ├── main.py ├──...
256 просмотров

Ошибка задержки Dask - AttributeError: объект '_thread._local' не имеет атрибута 'value'
Я ломал голову, пытаясь понять, почему я не могу выполнить эту параллелизируемую функцию на Dask. По сути, у меня есть функция, которая загружается в модель keras (я сохраняю модель с помощью mlflow), а затем использует метод прогнозирования модели...
61 просмотров

Почему мои фьючерсы на Dask застревают в состоянии ожидания и никогда не заканчиваются?
У меня есть давно работающий код (обработка ~ 5-10 минут), который я пытаюсь запустить как Dask Future . Это серия из нескольких отдельных шагов, которые я могу выполнить как одну функцию: result : Future = client.submit(my_function, arg1,...
514 просмотров

Проблемы с памятью и распределением Dask: в несколько раз больше данных загружается в память и не происходит утечки данных
Я запускаю несколько простых тестов с распределенным Dask и Datashader, но сталкиваюсь с двумя проблемами, которые не могу решить, и не понимаю, почему это происходит. Данные, с которыми я работаю, состоят из 1,7 миллиарда строк по 97 столбцов в...
365 просмотров
schedule 26.05.2024

Как я могу изменить версии библиотеки в образе докера, используемом рабочими dask?
Я пытаюсь запустить распределенное вычисление с помощью Dask в кластере AWS Fargate (используя dask.cloudprovider API), и я сталкиваюсь с той же проблемой, что и этот вопрос . На основе частичных ответов на связанный вопрос и таких вещей, как...
21 просмотров
schedule 19.03.2024

Как отправить в dask большой набор длительно выполняющихся параллельных задач?
У меня есть вычислительная рабочая нагрузка, которую я изначально выполнял с concurrent.futures.ProcessPoolExecutor , которую я преобразовал для использования dask, чтобы я мог использовать интеграции dask с распределенными вычислительными системами...
19 просмотров
schedule 28.05.2024