Преименуване на дублирани низове в R

Имам R рамка с данни, която има две колони от низове. В една от колоните (да речем Column1) има дублиращи се стойности. Трябва да преименувам тази колона, така че дублираните низове да бъдат преименувани с подредени суфикси, като в Column1.new

 Column1   Column2   Column1.new
 1         A         1_1
 1         B         1_2
 2         C         2_1
 2         D         2_2
 3         E         3
 4         F         4

Всякакви идеи как да направите това ще бъдат оценени.

наздраве,

Анти


person Antti    schedule 20.05.2013    source източник


Отговори (4)


Да приемем, че вашите данни (подредени по Column1) са в обект, наречен tab. Първо създайте обект с дължина на цикъла

c1.rle <- rle(tab$Column1)
c1.rle
##lengths: int [1:4] 2 2 1 1
##values : int [1:4] 1 2 3 4

Това ви дава стойности на Column1 и съответния брой появявания на всеки елемент. След това използвайте тази информация, за да създадете новата колона с уникални идентификатори:

tab$Column1.new <- paste0(rep(c1.rle$values, times = c1.rle$lengths), "_",
        unlist(lapply(c1.rle$lengths, seq_len)))

Не съм сигурен дали това е подходящо във вашата ситуация, но можете също така просто да поставите заедно Column1 и Column2, за да създадете уникален идентификатор...

person adibender    schedule 20.05.2013

Може да е малко по-заобиколно решение, но части от това може да са по-полезни и по-прости за някой с не съвсем същите нужди. make.names с атрибута unique=T добавя точка и номера на имена, които се повтарят:

x <- make.names(tab$Column1,unique=T)
> print(x)
[1] "X1"   "X1.1" "X2"   "X2.1" "X3"   "X4"   

Това може да е достатъчно за някои хора. Тук след това можете да вземете първите записи на елементи, които се повтарят, но не и елементи, които не се повтарят, след което да добавите .0 към края.

y <- rle(tab$Column1)
tmp <- !duplicated(tab$Column1) & (tab$Column1 %in% y$values[y$lengths>1])
x[tmp] <- str_replace(x[tmp],"$","\\.0")
> print(x)
[1] "X1.0" "X1.1" "X2.0" "X2.1" "X3"   "X4"

Сменете точките и премахнете X

x <- str_replace(x,"X","")
x <- str_replace(x,"\\.","_")
> print(x)
[1] "1_0" "1_1" "2_0" "2_1" "3"   "4" 

Може да е достатъчно добър за вас. Но ако искате индексирането да започне от 1, вземете числата, добавете едно и след това ги върнете обратно.

z <- str_match(x,"_([0-9]*)$")[,2]
z <- as.character(as.numeric(z)+1)
x <- str_replace(x,"_([0-9]*)$",paste0("_",z))
> print(x)
[1] "1_1" "1_2" "2_1" "2_2" "3"   "4" 

Както казах, тук е по-скоро заобиколно решение, но дава някои опции.

person Cão    schedule 27.10.2017

@Cão отговаря само с база R:

x=read.table(text="
Column1   Column2   #Column1.new
1         A         #1_1
1         B         #1_2
2         C         #2_1
2         D         #2_2
3         E         #3
4         F         #4", stringsAsFactors=F, header=T)

string<-x$Column1
mstring <- make.unique(as.character(string) )
mstring<-sub("(.*)(\\.)([0-9]+)","\\1_\\3",mstring)
y <- rle(string)
tmp <- !duplicated(string) & (string %in% y$values[y$lengths>1])
mstring[tmp]<-gsub("(.*)","\\1_0", mstring[tmp]) 
end <- sub(".*_([0-9]+)","\\1",grep("_([0-9]*)$",mstring,value=T) ) 
beg <- sub("(.*_)[0-9]+","\\1",grep("_([0-9]*)$",mstring,value=T) ) 
newend <- as.numeric(end)+1
mstring[grep("_([0-9]*)$",mstring)]<-paste0(beg,newend)
x$Column1New<-mstring
x
person Ferroao    schedule 25.08.2019

person    schedule
comment
Това всъщност е по-точно решение, тъй като не исках да имам суфикси за недублирани низове. Но и двете работят добре за моите цели. наздраве! - person Antti; 20.05.2013