Я создаю базовый сценарий NLP в Jupyter Notebook, который должен отфильтровывать все «эмболии» из отчетов. Однако, когда слова «нет» или «нет» встречаются в одной строке/предложении, я не хочу их включать. Это легко сделать с регулярным выражением, если вы знаете, где слово встречается, если оно встречается. Но между ними может быть много слов.
- Пример: сканирование показало наличие эмболии; должен быть включен
- Пример: эмболия не обнаружена; следует исключить (это легко с Regex)
- Пример проблемы: В настоящее время не обнаружено ни одной развивающейся, интересной, красивой, красивой эмболии; должно быть исключено, но я понятия не имею, как.
Это регулярное выражение для исключения «нет эмболии», когда они вместе в предложении:
result = re.findall('(?<!\no )(embolism?\w)', text)
Ошибка, возникающая с обычным регулярным выражением при расширении до нескольких слов: ошибка: просмотр назад требует шаблона фиксированной ширины
Я гуглил, как это решить, но не нашел решения, применимого к этой проблеме. Я также обнаружил, что установка Regex с помощью pip устраняет вышеупомянутую ошибку. Тем не менее, мне все еще интересно, есть ли решение этой проблемы?
Лучший,