Опитвам се да намеря най-ефективния начин за преминаване през рамка от данни и клъстерни наблюдения по групи от 5. Например, ако имам:
group <- c(1,2,3,4,5,6,7,8,9,10)
people <- c(1,2,3,4,4,3,2,1,2,3)
avg_age <- c(5,10,15,20,25,30,35,40,45,50)
data <- data.frame(group,people,age)
Това трябва да генерира
group people avg_age
1 1 1 5
2 2 2 10
3 3 3 15
4 4 4 20
5 5 4 25
6 6 3 30
7 7 2 35
8 8 1 40
9 9 1 45
10 10 2 50
След това бих искал да направя друг „клъстер“ от групи с поне 5 души в него със средна претеглена възраст за „клъстера“. Но бих искал да направя това по най-ефективния начин, като прегледам набора от данни и последователно добавям групи, докато се направи „клъстер“ с поне 5 души. Тогава нашите данни трябва да изглеждат така:
group people age cluster tot_ppl avg_age
1 1 1 5 1 6 11.67
2 2 2 10 1 6 11.67
3 3 3 15 1 6 11.67
4 4 4 20 2 8 22.5
5 5 4 25 2 8 22.5
6 6 3 30 3 5 32
7 7 2 35 3 5 32
8 8 1 40 4 6 46.67
9 9 2 45 4 6 46.67
10 10 3 50 4 6 46.67
Бих искал да направя нещо подобно на набор от данни с приблизително 10 000 наблюдения вместо 10. Някой има ли идея за ефективен начин за това?
Ето какво имам досега, но за някои от извадките от данни, с които работя, всъщност има по-близо до 2 милиона наблюдения, така че може да отнеме доста време, за да се изпълни...
data$cluster <- 0
count=0
while (min(data$cluster)==0)
#while (max(data$cluster)<=10)
{
count = count+1
data$cum <- ave(data$people, by=list(data$zipcode,data$cluster), FUN=cumsum)
data$a <- floor(data$cum/10)
data$b <- data$cum-data$n1
data$c <- floor(data$b/10)
data$cluster[data$c==0] = data$cluster[data$c==0]+1
}
extravars <- c('cum','a','b','c')
for (inc.source in extravars){
eval(parse(text = paste("data$",inc.source,"<-NULL",sep="")))
}
data$tot_ppl <- ave(data$people, by=list(data$zipcode,data$cluster), FUN=sum)
data$cluster[data$tot_ppl<10]=data$cluster[data$tot_ppl<10]+1
data$tot_ppl <- ave(data$people, by=list(data$zipcode,data$cluster), FUN=sum)
data2 <- data
for (i in 3:(ncol(data2)-3)){
data2$x <- data2[ ,i]*data2$tot_ppl
data2$x <- ave(data2$x, by=list(data2$zipcode,data2$cluster), FUN=sum)
data2$x <- round(data2$x/data2$tot_ppl,digits=2)
data2[ ,i] = data2$x
}
data2$x <- NULL
Така че докато това работи, отнема няколко часа, за да работи, така че ако някой знае начин да направи това по-ефективно или да го подобри, ще съм много благодарен. Благодаря!