Свързани въпроси 'pyspark-sql'

Грешка в предикатите на PySpark jdbc: Py4JError: Възникна грешка при извикване на o108.jdbc
Опитвам се да използвам предикати в моя DataFrameReader.jdbc() метод: df = sqlContext.read.jdbc( url="jdbc:db2://bluemix05.bluforcloud.com:50001/BLUDB:user=****;password=****;sslConnection=true;", table="GOSALES.BRANCH",...
1546 изгледи

Getting OutofMemoryError - GC overhead limit надвишава в pyspark
по средата на проекта получавам следната грешка след извикване на функция в моята spark sql заявка Написах функция за дефиниране на потребителя, която ще вземе два низа и ще ги свърже след конкатенацията, тя ще вземе най-десния подниз с дължина...
30754 изгледи

Не може да се запише кадър с данни като Hive таблица, извежда се изключение, че файлът не е намерен
Когато се опитвам да запазя рамка с данни като таблица Hive в pyspark df_writer.saveAsTable('hive_table', format='parquet', mode='overwrite') Получавам следната грешка: Причинено от: org.apache.hadoop.mapred.InvalidInputException:...
254 изгледи
schedule 27.09.2022

Двоеточие (:) преди функцията pyspark.sql 'pandas_udf()'?
В документацията за apply() от модула pyspark.sql беше предоставен код, който съдържа двоеточие преди функцията 'pandas_udf()'. Какво означава това и защо е включено? Получавам синтактични грешки при опит да изпълня реда. Кодът от документацията е...
217 изгледи
schedule 21.09.2022

pyspark dataframe, groupby и изчисляване на дисперсия на колона
Бих искал да групирам по рамка от данни на pyspark и да изчисля дисперсията на конкретна колона. За обикновения човек това е доста лесно и може да се направи по този начин from pyspark.sql import functions as func...
13052 изгледи

Как можем да използваме функцията dense_rank() в pyspark?
Изпълнявам скрипт pyspark, в който изпълнявам sql заявка и създавам рамка с данни. В sql заявката има функция dense_rank(). Поради това пълното изпълнение на тази заявка отнема твърде много време. Има ли някакъв начин да изпълним заявката бързо...
1446 изгледи