Публикации по темата pyspark-sql

Свързани въпроси 'pyspark-sql'

Грешка в предикатите на PySpark jdbc: Py4JError: Възникна грешка при извикване на o108.jdbc

Опитвам се да използвам предикати в моя DataFrameReader.jdbc() метод: df = sqlContext.read.jdbc( url="jdbc:db2://bluemix05.bluforcloud.com:50001/BLUDB:user=****;password=****;sslConnection=true;", table="GOSALES.BRANCH",...

1546 изгледи

19.09.2022

Getting OutofMemoryError - GC overhead limit надвишава в pyspark

по средата на проекта получавам следната грешка след извикване на функция в моята spark sql заявка Написах функция за дефиниране на потребителя, която ще вземе два низа и ще ги свърже след конкатенацията, тя ще вземе най-десния подниз с дължина...

30754 изгледи

apache-spark pyspark apache-spark-sql pyspark-sql udf

27.09.2022

Не може да се запише кадър с данни като Hive таблица, извежда се изключение, че файлът не е намерен

Когато се опитвам да запазя рамка с данни като таблица Hive в pyspark df_writer.saveAsTable('hive_table', format='parquet', mode='overwrite') Получавам следната грешка: Причинено от: org.apache.hadoop.mapred.InvalidInputException:...

254 изгледи

apache-spark pyspark hive pyspark-sql

27.09.2022

Двоеточие (:) преди функцията pyspark.sql 'pandas_udf()'?

В документацията за apply() от модула pyspark.sql беше предоставен код, който съдържа двоеточие преди функцията 'pandas_udf()'. Какво означава това и защо е включено? Получавам синтактични грешки при опит да изпълня реда. Кодът от документацията е...

217 изгледи

python pyspark pyspark-sql

21.09.2022

pyspark dataframe, groupby и изчисляване на дисперсия на колона

Бих искал да групирам по рамка от данни на pyspark и да изчисля дисперсията на конкретна колона. За обикновения човек това е доста лесно и може да се направи по този начин from pyspark.sql import functions as func...

13052 изгледи

python pyspark pyspark-sql spark-dataframe

28.09.2022

Как можем да използваме функцията dense_rank() в pyspark?

Изпълнявам скрипт pyspark, в който изпълнявам sql заявка и създавам рамка с данни. В sql заявката има функция dense_rank(). Поради това пълното изпълнение на тази заявка отнема твърде много време. Има ли някакъв начин да изпълним заявката бързо...

1446 изгледи

python pyspark apache-spark-sql pyspark-dataframes pyspark-sql

30.09.2022

Свързани въпроси 'pyspark-sql'

Подобни въпроси