Я работаю над заданием по работе с большими данными для школы, и чтобы мой код работал, мне нужно отфильтровать слова из текстового файла.
Конечно, я читаю файл и фильтрую то, что мне не нужно, с помощью replaceAll("[^a-zA-Z0-9]", "");
Но это приносит проблему. Потому что я фильтрую по пробелам, и есть некоторые особые случаи, такие как:
wobbewy!'--'Wobbewy,'
Я получаю такие слова:
wobbewywobbewy
Можно ли как-то фильтровать слова в пробелах, а также отфильтровывать эти особые случаи, не создавая огромного количества операторов if?
Пример кода того, что происходит после того, как я попробовал исправить:
while ((thisLine = bufferedReader.readLine()) != null) {
String[] woord = thisLine.toString().trim().split("\\s+");
for(int i=0; i<woord.length; i++){
normalWord = woord[i].replaceAll("[^a-zA-Z]+", " ");
normalWord = normalWord.toLowerCase();
Затем я получаю вывод, например:
xxv (несколько пробелов) мой