В официальной документации pyspark есть пример tf-idf.
hashingTF = HashingTF()
tf = hashingTF.transform(documents)
tf.cache()
idf = IDF().fit(tf)
tfidf = idf.transform(tf)
Я также готов в других источниках код, подобный этому. Вопрос: почему имя этого фрейма данных tfidf? Результат равен tf * idf или будет храниться только idf? Если да, то как рассчитать tf*idf?