Python: лучший способ удалить повторяющийся символ из строки

Как удалить повторяющиеся символы из строки с помощью Python? Например, допустим, у меня есть строка:

foo = "SSYYNNOOPPSSIISS"

Как я могу сделать строку:

foo = SYNOPSIS

Я новичок в python и что я устал, и это работает. Я знал, что есть умный и лучший способ сделать это... и только опыт может показать это...

def RemoveDupliChar(Word):
        NewWord = " "
        index = 0
        for char in Word:
                if char != NewWord[index]:
                        NewWord += char
                        index += 1
        print(NewWord.strip()) 

ПРИМЕЧАНИЕ. Порядок важен, и этот вопрос не похож на this< /а> один.


person Rahul Patil    schedule 14.09.2013    source источник


Ответы (6)


Используя itertools.groupby:

>>> foo = "SSYYNNOOPPSSIISS"
>>> import itertools
>>> ''.join(ch for ch, _ in itertools.groupby(foo))
'SYNOPSIS'
person falsetru    schedule 14.09.2013
comment
Можно ли изменить grp на _? - person Roman Pekar; 14.09.2013
comment
@RahulPatil, _ (grp перед модификацией ответа) является итерируемым, что дает отдельные элементы (здесь символы), которые сгруппированы вместе. - person falsetru; 14.09.2013
comment
Я потратил некоторое время на создание этой функции, я не знаю, itertools.groupby как вы это нашли? - person Rahul Patil; 14.09.2013
comment
@RahulPatil Обычно используется в циклах в качестве имени-заполнителя. Вы никогда не используете его, но он помещается туда, потому что вам нужно что-то положить. itertools.groupby является частью модуля itertools в стандартной библиотеке. В ответе ложного есть ссылка - person TerryA; 14.09.2013
comment
@RahulPatil, я вижу указатель модулей Python, чтобы найти полезные модули в стандартной библиотеке. - person falsetru; 14.09.2013
comment
спасибо всем, действительно большое преимущество после публикации небольшого кода - person Rahul Patil; 14.09.2013
comment
Это работает, как показано, если вы хотите, чтобы результатом был «СИНОПСИС». Но что, если вы хотите, чтобы результатом был «СИНОПИ», в котором ни один символ не повторяется более одного раза. А что, если вы хотите, скажем, «джилл» от «джилллл», поскольку «джилл» — это правильное написание. - person rabin utam; 30.05.2014
comment
@rabinutam, используя collections.OrderedDict: from collections import OrderedDict; print(''.join(OrderedDict.fromkeys("SSYYNNOOPPSSIISS"))) - person falsetru; 30.05.2014
comment
@falsetru привет, как использовать его в столбце панд? - person sygneto; 24.06.2019
comment
@sygneto, пожалуйста, задайте отдельный вопрос. - person falsetru; 24.06.2019
comment
@falsetru stackoverflow.com/questions/56736595/ - person sygneto; 24.06.2019

Это решение без импорта itertools:

foo = "SSYYNNOOPPSSIISS"
''.join([foo[i] for i in range(len(foo)-1) if foo[i+1]!= foo[i]]+[foo[-1]])

Out[1]: 'SYNOPSIS'

Но это медленнее, чем другие методы!

person G M    schedule 14.09.2013

Как насчет этого:

oldstring = 'SSSYYYNNNOOOOOPPPSSSIIISSS'
newstring = oldstring[0]
for char in oldstring[1:]:
    if char != newstring[-1]:
        newstring += char    
person Elliott    schedule 03.04.2015

def remove_duplicates(astring):
  if isinstance(astring,str) :
    #the first approach will be to use set so we will convert string to set and then convert back set to string and compare the lenght of the 2
    newstring = astring[0]
    for char in astring[1:]:
        if char not in newstring:
            newstring += char    
    return newstring,len(astring)-len(newstring)
  else:
raise TypeError("only deal with alpha  strings")

Я обнаружил это решение с помощью itertools и с пониманием списка, даже решение, когда мы сравниваем char с последним элементом списка, не работает

person Espoir Murhabazi    schedule 15.07.2017

Как насчет

foo = "SSYYNNOOPPSSIISS"


def rm_dup(input_str):
    newstring = foo[0]
    for i in xrange(len(input_str)):
        if newstring[(len(newstring) - 1 )] != input_str[i]:
            newstring += input_str[i]
        else:
            pass
    return newstring

print rm_dup(foo)
person rrao    schedule 15.11.2016

Вы можете попробовать это:

string1 = "example1122334455"
string2 = "hello there"

def duplicate(string):
    temp = ''

    for i in string:
        if i not in temp: 
            temp += i

    return temp;

print(duplicate(string1))
print(duplicate(string2))
person mohit Kumar    schedule 20.10.2019