В документацията за apply() от модула pyspark.sql беше предоставен код, който съдържа двоеточие преди функцията 'pandas_udf()'. Какво означава това и защо е включено? Получавам синтактични грешки при опит да изпълня реда. Кодът от документацията е по-долу.
Стартирането на кода ми даде синтактична грешка, очевидно. Опитах също да премахна дебелото черво, но без успех.
from pyspark.sql.functions import pandas_udf, PandasUDFType
df = spark.createDataFrame(
[(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],
("id", "v"))
:pandas_udf("id long, v double", PandasUDFType.GROUPED_MAP) # doctest: +SKIP
def normalize(pdf):
v = pdf.v
return pdf.assign(v=(v - v.mean()) / v.std())`enter code here`
df.groupby("id").apply(normalize).show() # doctest: +SKIP