В настоящее время я работаю над внедрением машинного обучения (Scikit-Learn) с одной машины на кластер Slurm через dask. Согласно некоторым руководствам (например, https://examples.dask.org/machine-learning/scale-scikit-learn.html), это довольно просто с помощью job_lib.parallel_backend('dask'). Однако расположение прочитанных данных меня смущает, и ни в одном из руководств это не упоминается. Должен ли я использовать dask.dataframe для чтения данных, чтобы убедиться, что они переданы в кластер, или не имеет значения, если я просто прочитаю их с помощью pd.dataframe (тогда данные хранятся в ОЗУ того компьютера, на котором я запускаю блокнот Юпитер)?
Большое тебе спасибо.
dask.dataframe
и они разбрасываются по кластеру. В противном случае, если ваши данные разделены (например, на S3), снова читая с помощью dask, каждый рабочий получает раздел. - person rpanai   schedule 06.07.2020with joblib.parallel_backend('dask'): grid_search.fit(data.data, data.target)
. Я не уверен, что эти коды автоматически разбрасывают данные из локального в кластер. - person dispink   schedule 06.07.2020