Как да деактивирам излъчването в бележник на Databricks?

Когато стартирам заявка в Databricks/PySpark, получавам следната грешка:

org.apache.spark.SparkException: Could not execute broadcast in 300 secs. You can increase the timeout for broadcasts via spark.sql.broadcastTimeout or disable broadcast join by setting spark.sql.autoBroadcastJoinThreshold to -1

Как да направя това програмно (Python) в бележник на Databricks? Опитах следното:

>>> spark.sql.autoBroadcastJoinThreshold(-1)

result:
AttributeError: 'function' object has no attribute 'autoBroadcastJoinThreshold'


>>> spark.sql.autoBroadcastJoinThreshold = -1

result:
AttributeError: 'method' object has no attribute 'autoBroadcastJoinThreshold'

Може би spark.sql.autoBroadcastJoinThreshold е ключ за свойство и това свойство по някакъв начин може да бъде зададено на -1, но все още не съм намерил никаква документация, която да описва как да се постигне това с помощта на Python.


person James Adams    schedule 13.11.2020    source източник


Отговори (2)


Страницата за конфигурация на клъстера за настройките на Spark е мястото, където това може да се посочи.

въведете описание на изображението тук

person James Adams    schedule 16.11.2020

Използвах това в databricks преди моята команда за присъединяване и тя работи:

spark.conf.set("spark.sql.broadcastTimeout" ,"-1")
person Anutosh Trivedi    schedule 04.12.2020
comment
Здравейте и добре дошли в Stack Overflow! Моля, направете обиколка. Благодаря за отговора, но можете ли също да добавите обяснение как вашият код решава проблема? Проверете помощния център за информация как да форматирате кода. - person Tyler2P; 04.12.2020