SparkR сбрасывает многострочный заголовок

Как удалить первые n строк (заголовок) файла CSV, прочитанного SparkR. Я знаю, что в Scala возможны некоторые вещи, например Как преобразовать файл csv в rdd или http://qnalist.com/questions/4849107/skip-lines-in-spark, но трудно применить его к SparkR.

Georg Heiler 15.03.2016 источник

comment

Это похоже на stackoverflow. com/questions/35844301/ Вы не можете отбрасывать строки, если не можете добавить к ним символ комментария. spark-csv В CsvRelation.scala пока нет метода удаления первых n строк. - xyzzy 15.03.2016

comment

Итак, если я знаю, что хочу удалить первые 3 строки, возможно ли это хотя бы? - Georg Heiler 15.03.2016

comment

Я так понимаю, что было бы лучше всего реализовать что-то подобное в простой scala, а затем попытаться получить доступ к этим внешним RDD из SparkR? Или вы предпочитаете использовать h2o.ai, который, кажется, имеет довольно полный R API. - Georg Heiler 16.03.2016

Ответы (1)

arrow_upward
0
arrow_downward

Я попытаюсь использовать что-то вроде этого:

my_id <- createDataFrame(sqlContext, data.frame(my_id = 1:count(data)))
data.new <- merge(data, my_id)
data.filtered <- filter(data.new, data.new$my_id > 4)

Georg Heiler 16.03.2016

SparkR сбрасывает многострочный заголовок

Ответы (1)

Похожие вопросы