Суммирование сгруппированных записей в кадре данных в R (снова)

(Я пытался задать этот вопрос ранее сегодня, но позже понял, что слишком упростил вопрос; ответы, которые я получил, были правильными, но я не мог их использовать из-за чрезмерного упрощения проблемы в исходном вопросе. Вот мой ответ. 2 попытка...)

У меня есть кадр данных в R, который выглядит так:

"Timestamp", "Source", "Target", "Length", "Content"
0.1        , P1      , P2      , 5       , "ABCDE"
0.2        , P1      , P2      , 3       , "HIJ"
0.4        , P1      , P2      , 4       , "PQRS"
0.5        , P2      , P1      , 2       , "ZY"
0.9        , P2      , P1      , 4       , "SRQP"
1.1        , P1      , P2      , 1       , "B"
1.6        , P1      , P2      , 3       , "DEF"
2.0        , P2      , P1      , 3       , "IJK"
...

и я хочу преобразовать это в:

"StartTime", "EndTime", "Duration", "Source", "Target", "Length", "Content"
0.1        , 0.4      , 0.3       , P1      , P2      , 12      , "ABCDEHIJPQRS"
0.5        , 0.9      , 0.4       , P2      , P1      , 6       , "ZYSRQP"
1.1        , 1.6      , 0.5       , P1      , P2      , 4       , "BDEF"
...

Пытаясь перевести это на английский язык, я хочу сгруппировать последовательные записи с одним и тем же «Источником» и «Целем» вместе, а затем распечатать одну запись для каждой группы, показывающую StartTime, EndTime и Duration (= EndTime-StartTime) для этой группы, вместе с суммой длин для этой группы и конкатенацией содержимого (все это будут строки) в этой группе.

Значения TimeOffset всегда будут увеличиваться по всему фрейму данных.

Я посмотрел на Melt/Recast и почувствовал, что его можно использовать для решения проблемы, но не мог разобраться в документации. Я подозреваю, что это можно сделать в R, но я действительно не знаю, с чего начать. В крайнем случае я мог бы экспортировать фрейм данных и сделать это, например. Python, но я бы предпочел остаться в R, если это возможно.

Заранее благодарим за любую помощь, которую вы можете предоставить

r dataframe select statistics

monch1962 15.04.2010 источник

Ответы (3)

arrow_upward
7
arrow_downward

Вот еще одно решение с использованием plyr:

id <- with(df1, paste(Source, Target))
df1$group <- cumsum(c(TRUE, id[-1] != id[-length(id)]))

library(plyr)
ddply(df1, c("group"), summarise, 
  start = min(Timestamp),
  end = max(Timestamp),
  content = paste(Content, collapse = ", ")
)

hadley 15.04.2010

comment

Люблю это решение - простое, элегантное и отлично работает. Спасибо Хэдли! - monch1962; 16.04.2010

arrow_upward
2
arrow_downward

Попробуй это:

id <- as.numeric(gsub("P","",paste(df$Source,df$Target,sep="")))
df$id <- cumsum(c(TRUE,diff(id)!=0))
res <- by(df, df$id,
          function(x) {
            len <- nrow(x)
            start <- x[1,1]
            end <- x[len,1]
            dur <- end - start
            src <- x[1,2]
            trg <- x[1,3]
            len <- sum(x[,4])
            cont <- paste(x[,5],collapse="")
            return(c(start,end,dur,src,trg,len,cont))
          }
          )
do.call(rbind,res)

P.S.: Вам нужно будет преобразовать результат в «правильный» формат, так как конечный результат представляет собой матрицу строк.

teucer 15.04.2010

arrow_upward
2
arrow_downward

Придерживаться моего (не элегантного) пути

df1 <- read.table(textConnection("
Timestamp Source Target Length Content
0.1         P1       P2       5        ABCDE
0.2         P1       P2       3        HIJ
0.4         P1       P2       4        PQRS
0.5         P2       P1       2        ZY
0.9         P2       P1       4        SRQP
1.1         P1       P2       1        B
1.6         P1       P2       3        DEF
2.0         P2       P1       3        IJK
"),header=T)

df <- adply(df1, 1 ,transform, newSource = 
as.numeric(paste(substr(Source, 2, 2),substr(Target, 2, 2),sep=""))  ) 

ind <- cbind(rle(df$newSource)[[1]],cumsum(rle(df$newSource)[[1]]))
ind2 <- apply(ind,1,function(x) c(x[2]-(x[1]-1),x[2]))
res <- ldply(apply(ind2,2,function(x) data.frame(StartTime = df[x[1],1] , 
EndTime = df[x[2],1] ,
Duration = df[x[2],1] - df[x[1],1] ,
Source = df[x[1],2] ,
Target = df[x[1],3] ,
Length=sum(df[x[1]:x[2],4]) ,
Content=paste(df[x[1]:x[2],5],collapse="")
) ))

  StartTime EndTime Duration Source Target Length      Content
1       0.1     0.4      0.3     P1     P2     12 ABCDEHIJPQRS
2       0.5     0.9      0.4     P2     P1      6       ZYSRQP
3       1.1     1.6      0.5     P1     P2      4         BDEF
4       2.0     2.0      0.0     P2     P1      3          IJK

George Dontas 15.04.2010

Суммирование сгруппированных записей в кадре данных в R (снова)

Ответы (3)

Похожие вопросы