Как разделить данные на набор поездов (и набор тестов) каждые nrows в R?

У меня проблема с классификацией, когда у меня есть огромный DATASET, содержащий 308 500 данных. Я хочу разделить эти данные на набор поездов и тестовый набор, чтобы создать модель.

Но я хочу, чтобы данные поезда брали, например, выборку для DATASET каждые nrows, например, каждые 1000 строк, поэтому я знаю, что набор поездов будет построен по строкам из всего DATASET. Есть ли способ сделать это?

Например, я хотел бы что-то вроде этого:

train = DATASET[take sample every 1000 rows]

person Giannis Lazaridis    schedule 07.05.2020    source источник
comment
вы видели этот похожий пост?   -  person mnm    schedule 16.05.2020


Ответы (1)


Вы можете использовать seq для создания индексов строк для подмножества.

train_inds <- seq(1, nrow(DATASET), 1000)
train <- DATASET[train_inds, ]
test <- DATASET[-train_inds, ]
person Ronak Shah    schedule 07.05.2020
comment
Спасибо! А вы знаете, как я беру остальные данные для тестового набора? - person Giannis Lazaridis; 07.05.2020