Как удалить первые n строк (заголовок) файла CSV, прочитанного SparkR. Я знаю, что в Scala возможны некоторые вещи, например Как преобразовать файл csv в rdd или http://qnalist.com/questions/4849107/skip-lines-in-spark, но трудно применить его к SparkR.
SparkR сбрасывает многострочный заголовок
comment
Это похоже на stackoverflow. com/questions/35844301/ Вы не можете отбрасывать строки, если не можете добавить к ним символ комментария. spark-csv В CsvRelation.scala пока нет метода удаления первых n строк.
- person xyzzy   schedule 15.03.2016
comment
Итак, если я знаю, что хочу удалить первые 3 строки, возможно ли это хотя бы?
- person Georg Heiler   schedule 15.03.2016
comment
Я так понимаю, что было бы лучше всего реализовать что-то подобное в простой scala, а затем попытаться получить доступ к этим внешним RDD из SparkR? Или вы предпочитаете использовать h2o.ai, который, кажется, имеет довольно полный R API.
- person Georg Heiler   schedule 16.03.2016
Ответы (1)
Я попытаюсь использовать что-то вроде этого:
my_id <- createDataFrame(sqlContext, data.frame(my_id = 1:count(data)))
data.new <- merge(data, my_id)
data.filtered <- filter(data.new, data.new$my_id > 4)
person
Georg Heiler
schedule
16.03.2016