Вопросы по теме 'slurm'

Что означает состояние «слива»?
Когда я использую sinfo , я вижу следующее: $ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST [...] RG3 up 28-00:00:0 1 drain rg3hpc4 [...] Что означает состояние «слива»?
24932 просмотров
schedule 23.11.2022

Закрепление процессов в задании MPI, запущенном через srun
Я выполняю задания MPI в кластере SLURM и хочу привязать результирующие процессы к определенным ядрам на узле. Это может включать разное количество процессов на разных узлах и разные шаблоны закрепления на разных узлах. Это все относительно просто,...
876 просмотров
schedule 13.04.2024

Учет SLURM не собирает AllocCPUS
Учет SLURM не собирает значения AllocCPUS (sacct показывает ноль во всех значениях). Что может быть причиной? Настройки узлов в файле /etc/slurm/slurm.conf: NodeName=node[1-72] RealMemory=64338 Sockets=2 CoresPerSocket=8 ThreadsPerCore=1...
167 просмотров
schedule 12.11.2023

масштабировать вверх / вниз кластер slurm
Я только недавно начал изучать сларм, жару и у меня есть несколько вопросов. У меня есть существующий кластер slurm, созданный с использованием ansible и heat. Heat создает кластер, а ansible просто устанавливает / настраивает все необходимое...
340 просмотров
schedule 24.10.2023

MPICH/SLURM присваивают ранг хоста
Я использую MPICH со SLURM и пытаюсь присвоить ранг определенному узлу (из-за аппаратных различий я хочу, чтобы определенный узел всегда имел ранг 0). MPICH использует Hydra Process Manager. Проверив документацию, я должен иметь ранговый файл (или...
336 просмотров
schedule 01.06.2024

Есть ли в команде sacct в диспетчере рабочих нагрузок Slurm способ найти максимум столбца Elapsed или отсортировать его?
В настоящее время я запускаю массив из 1000 заданий, используя Slurm. Когда это будет сделано, я использую sacct , чтобы увидеть, сколько времени на самом деле было потрачено. Я хотел бы увидеть, какая работа была самой продолжительной. Это будет...
260 просмотров
schedule 24.04.2024

Как отправлять задания в несколько разделов одновременно (Slurm)
После того, как я отправил задание узлу / разделу cn430 сегодня, я обнаружил, что узел все еще одержим, После завершения предыдущего задания моя работа все еще не запускалась из-за приоритета. Затем я заметил, что все эти вакансии имеют...
525 просмотров
schedule 24.11.2022

slurm ограничивает количество spwaned процессов
Я новичок, пытаюсь установить / администрировать slurm. Я хочу ограничить количество разветвлений, которое может выполнить slurm job. Я использовал команду stress, чтобы увидеть загрузку процессора по slurm. Когда я запускаю этот пакетный скрипт...
259 просмотров
schedule 16.03.2024

Запустите множество подпроцессов на множество разных узлов HPC с помощью Joblib+Dask.
Я пытаюсь запустить программу на Python, которая в какой-то момент выполняет множество (тысячи) смущающе параллельных процессов, которые представляют собой вызовы подпроцессов для другого программного обеспечения. Я запускаю это в кластере slurm на...
282 просмотров

Разработка программного обеспечения на Python, которое будет работать в другой среде.
Последние шесть месяцев я работаю над приложением Python с графическим интерфейсом, которое буду использовать на работе. В частности, мой графический интерфейс будет работать на нескольких кластерах суперкомпьютеров, которые я использую для работы....
91 просмотров
schedule 23.02.2024

Путаница с расположением данных при применении Scikit-learn в кластере (Dask)
В настоящее время я работаю над внедрением машинного обучения (Scikit-Learn) с одной машины на кластер Slurm через dask. Согласно некоторым руководствам (например, https://examples.dask.org/machine-learning/scale-scikit-learn.html ), это довольно...
44 просмотров
schedule 18.10.2022

Найти временные ряды ЦП и памяти Slurm Job?
Есть хороший вопрос ( узнать Процессорное время и использование памяти для задания slurm ) о том, как получить время ЦП и использование памяти для задания slurm и spinup, имеет хороший ответ ( https://stackoverflow.com/a/56555505/4570472 ). Однако,...
188 просмотров
schedule 14.12.2023

Знает ли mpirun, больше или меньше запрошенное количество ядер, чем количество ядер в узле?
Я рассматриваю, какая программа запуска процессов, от mpirun до srun , лучше оптимизирует ресурсы. Допустим, у одного вычислительного узла в кластере всего 16 ядер, и у меня есть задание, которое я хочу выполнить, используя 10 процессов. Если...
47 просмотров
schedule 22.12.2023

Как создать разные сценарии для запуска в каждом каталоге в Linux?
У меня есть каталог main , в котором около 100 каталогов. Например, это выглядит так: main |__ test_1to50000 |__ test_50001to60000 |__ test_60001to70000 |__ test_70001to80000 |__ test1.sh У меня есть скрипт sbatch test1.sh для запуска...
69 просмотров
schedule 28.10.2023

Как запустить n задач с одним GPU в каждой?
У меня есть большой кластер вычислительных узлов, в каждом узле по 6 графических процессоров. И я хочу начать, скажем, со 100 работниками, каждый из которых будет иметь доступ только к одному графическому процессору. То, что я делаю сейчас,...
54 просмотров
schedule 08.10.2022

Связать несколько заданий SLURM с зависимостью
В предыдущем вопросе я спросил, как поставить задание B для запуска после задания A, что делается с помощью sbatch --dependency=after:123456:+5 jobB.slurm где 123456 — это идентификатор задания A, а :+5 означает, что оно начнется через...
248 просмотров
schedule 23.09.2022

Как передать мой скрипт Python в Slurm sbatch?
Я написал сценарий Python, который я должен передать в пакетную систему Slurm моего университета для вычислений. Я написал короткий сценарий оболочки, который должен просто ввести сценарий python в систему sbatch, но я получаю сообщение об ошибке:...
47 просмотров
schedule 08.11.2022

Как использовать AWS sbatch (SLURM) внутри докера на инстансе EC2?
Я пытаюсь запустить OpenFOAM в кластере AWS EC2, используя AWS parallelCluster. Одна из возможностей — скомпилировать OpenFOAM. Другой — использовать контейнер докеров. Я пытаюсь заставить работать второй вариант. Однако у меня возникают...
27 просмотров

Как настроить Rstudio, sparklyR в кластере с автоматическим масштабированием, управляемом slurm?
У меня есть автоматически масштабируемый кластер aws HPC, управляемый slurm, я могу отправлять задания с помощью sbatch, однако я хочу использовать spraklyr в этом кластере, чтобы slurm увеличивал размер кластера в зависимости от рабочей нагрузки кода...
32 просмотров
schedule 07.05.2024