В настоящее время я использую приведенный ниже код для загрузки данных в BigQuery через кластер PySpark (dataproc), но либо обработка занимает слишком много времени, либо завершается с ошибкой превышения времени выполнения. Есть ли лучший и более быстрый способ загрузить искру df в BigQuery?
output.write \
.format("bigquery") \
.option("table","{}.{}".format(bq_dataset, bq_table)) \
.option("temporaryGcsBucket", gcs_bucket) \
.mode('append') \
.save()
Ниже представлена моя конфигурация кластера dataproc:
Master node : Standard (1 master, N workers)
Machine type : n1-standard-4
Number of GPUs : 0
Primary disk type : pd-standard
Primary disk size : 500GB
Worker nodes : 3
Machine type : n1-standard-4
Number of GPUs : 0
Primary disk type : pd-standard
Primary disk size : 500GB
Image version : 1.4.30-ubuntu18
df.count()
илиdf.show()
выполняется неограниченное время и не выполняется, не знаю почему, но я предполагаю, что это не должно быть 200-300 строк, и я добавил конфигурацию кластера как часть вопроса. - person Tracy   schedule 11.06.2020