Как найти медиану столбца в pyspark?

У меня есть фрейм данных искры

df = 
   a     b     c     d
0  12  12.0   car  bike
1  20  20.5   car  alto
2  15  12.0  bike   car
3  25    25  bike  jeep

Я хочу найти медиану столбца «а». Я не смог найти подходящий способ найти медиану, поэтому использовал обычную функцию Python NumPy, чтобы найти медиану, но я получил сообщение об ошибке, как показано ниже: -

import numpy as np
median = df['a'].median()

ошибка:-

TypeError: 'Column' object is not callable

Ожидаемый результат: -

17.5

person data.is.world    schedule 02.06.2021    source источник


Ответы (1)


Вы можете использовать precentile_ приблизительно следующим образом:

df.agg(F.expr("percentile_approx('a', 0.5)")).show()
person Sreeram TP    schedule 02.06.2021