Я успешно разбиваю предложения на слова с помощью StringTokenizer
.
Есть ли инструмент, который может разбивать составные слова, такие как Projektüberwachung
, на их части Projekt
и überwachung
или даже более длинные?
Причина разделения составных слов заключается в том, что я хочу сделать извлечение текста. Я хочу преобразовать такие фразы, как эти Projektplanung und -überwachung
, в две части Projektplanung
и Projektüberwachung
. И разбиение сложного слова — мой первый шаг.