Преоформете рамката с данни от широка към панелна с множество променливи и известна времева инвариантност

Това е основен проблем при анализа на данни, с който Stata се справя в една стъпка.

Създайте широка рамка от данни с непроменливи във времето данни (x0) и променливи във времето данни за години 2000 и 2005 (x1,x2):

d1 <- data.frame(subject = c("id1", "id2"),  
x0 = c("male", "female"),  
x1_2000 = 1:2,   
x1_2005 = 5:6,  
x2_2000 = 1:2,  
x2_2005 = 5:6    
) 

s.t.

subject x0 x1_2000 x1_2005 x2_2000 x2_2005  
1     id1 male         1       5       1       5  
2     id2 female       2       6       2       6  

Искам да го оформя като панел, така че данните да изглеждат така:

        subject     x0 time x1 x2
1     id1   male 2000  1  1
2     id2 female 2000  2  2
3     id1   male 2005  5  5
4     id2 female 2005  6  6

Мога да направя това с reshape s.t.

d2 <-reshape(d1, 
idvar="subject",
varying=list(c("x1_2000","x1_2005"),
    c("x2_2000","x2_2005")),
    v.names=c("x1","x2"),
    times = c(2000,2005),
    direction = "long",
    sep= "_")

Основната ми грижа е, че когато имате десетки променливи, горната команда става много дълга. В stata човек просто ще напише:

reshape long x1 x2, i(subject) j(year)

Има ли такова просто решение в R?


person Fred    schedule 13.03.2011    source източник


Отговори (2)


reshape може да отгатне много от аргументите си. В този случай е достатъчно да посочите следното. Не са използвани опаковки.

 reshape(d1, dir = "long", varying = 3:6, sep = "_")

даване:

       subject     x0 time x1 x2 id
1.2000     id1   male 2000  1  1  1
2.2000     id2 female 2000  2  2  2
1.2005     id1   male 2005  5  5  1
2.2005     id2 female 2005  6  6  2
person G. Grothendieck    schedule 13.03.2011
comment
хубаво! Но какво се случва, когато променливите са именувани samplesep=2000 и т.н... Може ли човек да бъде по-разбран с опцията sep=? - person Fred; 14.03.2011
comment
@Fred, използвай аргумента split вместо sep, т.е. reshape(d1, dir = "long", varying = 3:6, split = list(regexp = "_2", include = TRUE)), или намали този случай до този във въпроса, т.е. reshape(setNames(d1, sub("sample_", "", names(d1))), dir = "long", varying = 3:6, sep = "_") - person G. Grothendieck; 14.03.2011

ето кратък пример за използване на пакет reshape2:

library(reshape2)
library(stringr)

# it is always useful to start with melt
d2 <- melt(d1, id=c("subject", "x0"))

# redefine the time and x1, x2, ... separately
d2 <- transform(d2, time = str_replace(variable, "^.*_", ""),
                    variable = str_replace(variable, "_.*$", ""))

# finally, cast as you want
d3 <- dcast(d2, subject+x0+time~variable)

сега не е нужно дори да указвате x1 и x2.
Този код работи, ако променливите се увеличават:

> d1 <- data.frame(subject = c("id1", "id2"), x0 = c("male", "female"),
+ x1_2000 = 1:2,
+ x1_2005 = 5:6,
+ x2_2000 = 1:2,
+ x2_2005 = 5:6,
+ x3_2000 = 1:2,
+ x3_2005 = 5:6,
+ x4_2000 = 1:2,
+ x4_2005 = 5:6
+ ) 
> 
> d2 <- melt(d1, id=c("subject", "x0"))
> d2 <- transform(d2, time = str_replace(variable, "^.*_", ""),
+                     variable = str_replace(variable, "_.*$", ""))
> 
> d3 <- dcast(d2, subject+x0+time~variable)
> 
> d3
  subject     x0 time x1 x2 x3 x4
1     id1   male 2000  1  1  1  1
2     id1   male 2005  5  5  5  5
3     id2 female 2000  2  2  2  2
4     id2 female 2005  6  6  6  6
person kohske    schedule 13.03.2011
comment
Благодаря, това е полезно. Не е много ясно какво прави transform (помощният файл не е много полезен), нито как да се интерпретират "^.*_" и "_.*$". Питам, защото някои променливи всъщност се наричат ​​sampletransform2000 и т.н. - person Fred; 13.03.2011
comment
Може би това е по-интуитивно с данни за годината, наречени sampletemp1 <- transform(temp, time = str_sub(variable, -4), variable = str_sub(variable, 1,str_length(variable)-5))2000 и така нататък: temp1 <- transform(temp, time = str_sub(variable, -4), variable = str_sub(variable, 1,str_length(variable)-5)) - person Fred; 13.03.2011
comment
@Fred зависи от формата на името на променливата. ако дължината на (поне част от) символа е фиксирана, вашият начин е по-лесен. в противен случай регулярният израз е по-гъвкав. - person kohske; 13.03.2011