Вопросы по теме 'slurm'
Что означает состояние «слива»?
Когда я использую sinfo , я вижу следующее:
$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
[...]
RG3 up 28-00:00:0 1 drain rg3hpc4
[...]
Что означает состояние «слива»?
24932 просмотров
schedule
23.11.2022
Закрепление процессов в задании MPI, запущенном через srun
Я выполняю задания MPI в кластере SLURM и хочу привязать результирующие процессы к определенным ядрам на узле. Это может включать разное количество процессов на разных узлах и разные шаблоны закрепления на разных узлах. Это все относительно просто,...
876 просмотров
schedule
13.04.2024
Учет SLURM не собирает AllocCPUS
Учет SLURM не собирает значения AllocCPUS (sacct показывает ноль во всех значениях). Что может быть причиной? Настройки узлов в файле /etc/slurm/slurm.conf: NodeName=node[1-72] RealMemory=64338 Sockets=2 CoresPerSocket=8 ThreadsPerCore=1...
167 просмотров
schedule
12.11.2023
масштабировать вверх / вниз кластер slurm
Я только недавно начал изучать сларм, жару и у меня есть несколько вопросов.
У меня есть существующий кластер slurm, созданный с использованием ansible и heat. Heat создает кластер, а ansible просто устанавливает / настраивает все необходимое...
340 просмотров
schedule
24.10.2023
MPICH/SLURM присваивают ранг хоста
Я использую MPICH со SLURM и пытаюсь присвоить ранг определенному узлу (из-за аппаратных различий я хочу, чтобы определенный узел всегда имел ранг 0). MPICH использует Hydra Process Manager. Проверив документацию, я должен иметь ранговый файл (или...
336 просмотров
schedule
01.06.2024
Есть ли в команде sacct в диспетчере рабочих нагрузок Slurm способ найти максимум столбца Elapsed или отсортировать его?
В настоящее время я запускаю массив из 1000 заданий, используя Slurm. Когда это будет сделано, я использую sacct , чтобы увидеть, сколько времени на самом деле было потрачено. Я хотел бы увидеть, какая работа была самой продолжительной. Это будет...
260 просмотров
schedule
24.04.2024
Как отправлять задания в несколько разделов одновременно (Slurm)
После того, как я отправил задание узлу / разделу cn430 сегодня, я обнаружил, что узел все еще одержим,
После завершения предыдущего задания моя работа все еще не запускалась из-за приоритета. Затем я заметил, что все эти вакансии имеют...
525 просмотров
schedule
24.11.2022
slurm ограничивает количество spwaned процессов
Я новичок, пытаюсь установить / администрировать slurm. Я хочу ограничить количество разветвлений, которое может выполнить slurm job. Я использовал команду stress, чтобы увидеть загрузку процессора по slurm.
Когда я запускаю этот пакетный скрипт...
259 просмотров
schedule
16.03.2024
Запустите множество подпроцессов на множество разных узлов HPC с помощью Joblib+Dask.
Я пытаюсь запустить программу на Python, которая в какой-то момент выполняет множество (тысячи) смущающе параллельных процессов, которые представляют собой вызовы подпроцессов для другого программного обеспечения. Я запускаю это в кластере slurm на...
282 просмотров
schedule
11.12.2022
Разработка программного обеспечения на Python, которое будет работать в другой среде.
Последние шесть месяцев я работаю над приложением Python с графическим интерфейсом, которое буду использовать на работе. В частности, мой графический интерфейс будет работать на нескольких кластерах суперкомпьютеров, которые я использую для работы....
91 просмотров
schedule
23.02.2024
Путаница с расположением данных при применении Scikit-learn в кластере (Dask)
В настоящее время я работаю над внедрением машинного обучения (Scikit-Learn) с одной машины на кластер Slurm через dask. Согласно некоторым руководствам (например, https://examples.dask.org/machine-learning/scale-scikit-learn.html ), это довольно...
44 просмотров
schedule
18.10.2022
Найти временные ряды ЦП и памяти Slurm Job?
Есть хороший вопрос ( узнать Процессорное время и использование памяти для задания slurm ) о том, как получить время ЦП и использование памяти для задания slurm и spinup, имеет хороший ответ ( https://stackoverflow.com/a/56555505/4570472 ). Однако,...
188 просмотров
schedule
14.12.2023
Знает ли mpirun, больше или меньше запрошенное количество ядер, чем количество ядер в узле?
Я рассматриваю, какая программа запуска процессов, от mpirun до srun , лучше оптимизирует ресурсы. Допустим, у одного вычислительного узла в кластере всего 16 ядер, и у меня есть задание, которое я хочу выполнить, используя 10 процессов.
Если...
47 просмотров
schedule
22.12.2023
Как создать разные сценарии для запуска в каждом каталоге в Linux?
У меня есть каталог main , в котором около 100 каталогов. Например, это выглядит так:
main
|__ test_1to50000
|__ test_50001to60000
|__ test_60001to70000
|__ test_70001to80000
|__ test1.sh
У меня есть скрипт sbatch test1.sh для запуска...
69 просмотров
schedule
28.10.2023
Как запустить n задач с одним GPU в каждой?
У меня есть большой кластер вычислительных узлов, в каждом узле по 6 графических процессоров. И я хочу начать, скажем, со 100 работниками, каждый из которых будет иметь доступ только к одному графическому процессору.
То, что я делаю сейчас,...
54 просмотров
schedule
08.10.2022
Связать несколько заданий SLURM с зависимостью
В предыдущем вопросе я спросил, как поставить задание B для запуска после задания A, что делается с помощью
sbatch --dependency=after:123456:+5 jobB.slurm
где 123456 — это идентификатор задания A, а :+5 означает, что оно начнется через...
248 просмотров
schedule
23.09.2022
Как передать мой скрипт Python в Slurm sbatch?
Я написал сценарий Python, который я должен передать в пакетную систему Slurm моего университета для вычислений. Я написал короткий сценарий оболочки, который должен просто ввести сценарий python в систему sbatch, но я получаю сообщение об ошибке:...
47 просмотров
schedule
08.11.2022
Как использовать AWS sbatch (SLURM) внутри докера на инстансе EC2?
Я пытаюсь запустить OpenFOAM в кластере AWS EC2, используя AWS parallelCluster.
Одна из возможностей — скомпилировать OpenFOAM. Другой — использовать контейнер докеров. Я пытаюсь заставить работать второй вариант.
Однако у меня возникают...
27 просмотров
schedule
25.10.2022
Как настроить Rstudio, sparklyR в кластере с автоматическим масштабированием, управляемом slurm?
У меня есть автоматически масштабируемый кластер aws HPC, управляемый slurm, я могу отправлять задания с помощью sbatch, однако я хочу использовать spraklyr в этом кластере, чтобы slurm увеличивал размер кластера в зависимости от рабочей нагрузки кода...
32 просмотров
schedule
07.05.2024