Успях да създам 2 списъка от текстови документи. Първият е моят списък с биграми:
keywords = ['nike shoes','nike clothing', 'nike black', 'nike white']
и списък със стоп думи:
stops = ['clothing','black','white']
Искам да премахна спирките от моя списък с ключови думи. Използвайки горния пример, резултатът, който преследвам, трябва да изглежда така:
new_keywords = ['nike shoes','nike', 'nike', 'nike'] --> eventually I'd like to remove those dupes.
Това е, което направих досега:
keywords = open("keywords.txt", "r")
new_keywords = keywords.read().split(",")
stops = open("stops.txt","r")
new_stops = stops.read().split(",")
[i for i in new_keywords if i not in new_stops]
Проблемът, който имам, е, че търси комбинациите от 2 думи, а не спиранията на една дума....