Почему средство вывода createDataFrame не создает столбцы этих данных в виде строк?

Следующий код показывает, как создается dataFrame. Видно, что фрейм данных состоит из двух столбцов. В каждом столбце есть целые числа и строка в последней строке.

Насколько я понимаю, createDataFrame должен анализировать типы данных столбцов (и, следовательно, строк). Затем предположим, что один тип данных может включать все строки. В этом случае я предполагаю, что столбцы должны быть строковыми типами данных, потому что этот тип может включать числа и строки.

Поэтому, почему результирующий dataFrame имеет столбцы с длинным типом данных, а строки обнуляются?

# DataFrame construction:
b = sqlContext.createDataFrame([(1, 2),(2, 3), (3, 3), ('test0', 'test1')], ['pepe', 'pepa'], samplingRatio=1)
b.show()


#+----+----+
#|pepe|pepa|
#+----+----+
#|   1|   2|
#|   2|   3|
#|   3|   3|
#|null|null|
#+----+----+

После предложения @ccheneson я решил повторно запустить код, удалив параметр samplingRatio, и получил точно такой же результат. Любая идея, почему это происходит?

Hugo Reyes 15.02.2016 источник

comment

Что произойдет, если вы удалите samplingRatio ? - ccheneson 15.02.2016

comment

Спасибо. Я редактирую свой вопрос, я включил результаты. - Hugo Reyes 15.02.2016

Ответы (1)

arrow_upward
2
arrow_downward

Это происходит потому, что аргумент samplingRatio полностью игнорируется, когда DataFrame создается из локальной структуры данных. Используется, только если data является RDD. В противном случае данные преобразуются в Java RDD, а объекты несоответствующих типов преобразуются в пустые значения.

Если вы передадите RDD вместо списка, Spark применит вывод схемы и выдаст исключение, как, например, в Scala. Это происходит потому, что Spark не поддерживает смешанные типы и не выполняет автоматическое приведение типов.

Почему аргумент inferSchema вообще существует? Это похоже на артефакт устаревшего вывода на RDDs, созданный из словарей Python. Но это всего лишь дикая догадка.

zero323 15.02.2016

Почему средство вывода createDataFrame не создает столбцы этих данных в виде строк?

Ответы (1)

Похожие вопросы