Бих искал да групирам по рамка от данни на pyspark и да изчисля дисперсията на конкретна колона. За обикновения човек това е доста лесно и може да се направи по този начин
from pyspark.sql import functions as func
AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect()
обаче за дисперсията изглежда няма функция за агрегиране във функционалния подмодул (също се чудя защо, тъй като това е доста често срещана операция)
func.pow('clicks',2)
, за да получите кликвания^2. - person Paul   schedule 12.08.2015