SparkR сбрасывает многострочный заголовок

Как удалить первые n строк (заголовок) файла CSV, прочитанного SparkR. Я знаю, что в Scala возможны некоторые вещи, например Как преобразовать файл csv в rdd или http://qnalist.com/questions/4849107/skip-lines-in-spark, но трудно применить его к SparkR.


person Georg Heiler    schedule 15.03.2016    source источник
comment
Это похоже на stackoverflow. com/questions/35844301/ Вы не можете отбрасывать строки, если не можете добавить к ним символ комментария. spark-csv В CsvRelation.scala пока нет метода удаления первых n строк.   -  person xyzzy    schedule 15.03.2016
comment
Итак, если я знаю, что хочу удалить первые 3 строки, возможно ли это хотя бы?   -  person Georg Heiler    schedule 15.03.2016
comment
Я так понимаю, что было бы лучше всего реализовать что-то подобное в простой scala, а затем попытаться получить доступ к этим внешним RDD из SparkR? Или вы предпочитаете использовать h2o.ai, который, кажется, имеет довольно полный R API.   -  person Georg Heiler    schedule 16.03.2016


Ответы (1)


Я попытаюсь использовать что-то вроде этого:

my_id <- createDataFrame(sqlContext, data.frame(my_id = 1:count(data)))
data.new <- merge(data, my_id)
data.filtered <- filter(data.new, data.new$my_id > 4)
person Georg Heiler    schedule 16.03.2016