Создайте переменную, которая идентифицирует исходный data.frame после команды rbind в R.

Я относительно новичок в R, и я хотел бы знать, как создать переменную (числовую последовательность), которая идентифицирует каждый из исходных data.frames перед объединением с командой rbind.

Поскольку в исходных кадрах данных есть одна переменная, которая является номером идентификатора строки, при создании цикла, который присваивает новый номер новой переменной каждый раз, когда он встречает число 1 в идентификаторе строки, он должен работать...

Спасибо.


person Francisco Beca    schedule 03.12.2014    source источник


Ответы (6)


В пакете gdata есть функция combine, которая делает именно это.

df1 <- data.frame(a = seq(1, 5, by = 1),
                  b = seq(21, 25, by = 1))

df2 <- data.frame(a = seq(6, 10, by = 1),
                  b = seq(26, 30, by = 1))

library(gdata)
combine(df1, df2)

    a  b source
1   1 21    df1
2   2 22    df1
3   3 23    df1
4   4 24    df1
5   5 25    df1
6   6 26    df2
7   7 27    df2
8   8 28    df2
9   9 29    df2
10 10 30    df2
person maloneypatr    schedule 03.12.2014
comment
Есть ли способ получить исходный код в качестве первого столбца вместо последнего - person Vaibhav Singh; 15.07.2019
comment
можно добавить трубку... %>% select(`source`, everything_else()) - person maloneypatr; 16.07.2019

Похоже, что bind_rows из пакета dplyr тоже это сделает. Используя пример maloneypatr:

df1 <- data.frame(a = seq(1, 5, by = 1),
                  b = seq(21, 25, by = 1))

df2 <- data.frame(a = seq(6, 10, by = 1),
                  b = seq(26, 30, by = 1))

dplyr::bind_rows(df1, df2, .id = "source")

Source: local data frame [10 x 3]

#    source     a     b
#     (chr) (dbl) (dbl)
# 1       1     1    21
# 2       1     2    22
# 3       1     3    23
# 4       1     4    24
# 5       1     5    25
# 6       2     6    26
# 7       2     7    27
# 8       2     8    28
# 9       2     9    29
# 10      2    10    30
person Jake Fisher    schedule 15.03.2016

Почему бы просто не:

    rbind( cbind(df1, origin="df1"),
           cbind(df2,  origin='df2') )

Или, если вы хотите сохранить имена строк:

  rbind( cbind(df1, origin=paste("df1",rownames(df1), sep="_") ),
         cbind(df2, origin=paste("df1",rownames(df1), sep="_") ) )
person IRTFM    schedule 03.12.2014

Вы можете использовать

transform(dat, newCol = cumsum(ID == 1))

где dat — имя вашего фрейма данных, а ID — имя столбца ID.

person Sven Hohenstein    schedule 03.12.2014

Достаточно расширяемое решение:

# test data:
df1 <- data.frame(id=letters[1:2])
df2 <- data.frame(id=letters[1:2])

Соберите свои данные в список, а затем rbind все сразу:

dfs <- c("df1","df2")
do.call(rbind, Map("[<-", mget(dfs), TRUE, "source", dfs) )

#      id source
#df1.1  a    df1
#df1.2  b    df1
#df2.1  a    df2
#df2.2  b    df2

Кроме того, в этом примере обратите внимание, что когда вы rbind используете именованный список, ваши имена строк ссылаются на исходные данные. Это означает, что вы можете почти получить то, что хотите, используя только:

dfs <- c("df1","df2")
do.call(rbind, mget(dfs) )

#      id
#df1.1  a
#df1.2  b
#df2.1  a
#df2.2  b
person thelatemail    schedule 03.12.2014

Спасибо всем! В итоге я нашел простое решение, работая с моим другом, создав индекс, например:

index<-rep(1,times=nrow(data.frame))

for (i in 1:(nrow(data.frame)-1)){

if (data_frame$ID [i+1]<= data.frame$ID[i]) {
index[i+1]<-index[i]+1
}
else {index[i+1]<-index[i]}}

new.data.frame <- cbind(index, data.frame)
person Francisco Beca    schedule 04.12.2014