Следующий код показывает, как создается dataFrame. Видно, что фрейм данных состоит из двух столбцов. В каждом столбце есть целые числа и строка в последней строке.
Насколько я понимаю, createDataFrame должен анализировать типы данных столбцов (и, следовательно, строк). Затем предположим, что один тип данных может включать все строки. В этом случае я предполагаю, что столбцы должны быть строковыми типами данных, потому что этот тип может включать числа и строки.
Поэтому, почему результирующий dataFrame имеет столбцы с длинным типом данных, а строки обнуляются?
# DataFrame construction:
b = sqlContext.createDataFrame([(1, 2),(2, 3), (3, 3), ('test0', 'test1')], ['pepe', 'pepa'], samplingRatio=1)
b.show()
#+----+----+
#|pepe|pepa|
#+----+----+
#| 1| 2|
#| 2| 3|
#| 3| 3|
#|null|null|
#+----+----+
После предложения @ccheneson я решил повторно запустить код, удалив параметр samplingRatio
, и получил точно такой же результат. Любая идея, почему это происходит?
samplingRatio
? - person ccheneson   schedule 15.02.2016