Как разделить текст с помощью регулярных выражений, но разделенные слова продолжают сохранять разделитель регулярных выражений?

У меня есть текст, и я использую это простое регулярное выражение, чтобы разделить его на слова: [ \n]. Он разбивает текст на слова, используя пробелы и разрывы строк.

Я хочу знать, есть ли способ сохранить пробел или разрыв строки в разделенном слове, потому что я буду использовать это для простого обнаружения предложения после некоторой обработки.

Я использую метод String#split.

Renato Dinhani 17.08.2011 источник

comment

Ваш \n означает что-то особенное (конец предложения)? Вы не обрабатываете обычные абзацы в несколько строк с помощью . как конец предложения? - toto2 17.08.2011

comment

@toto2 Пунктуация также используется для определения конца предложения, но содержимое исходит из содержимого HTML, поэтому во многих предложениях, таких как заголовок, нет знаков препинания, определяющих, где заканчиваются предложения, а только разрыв строки. - Renato Dinhani 17.08.2011

comment

Я не уверен, что вы должны полагаться на \n при обработке HTML, так как у вас может быть прекрасный документ без единого \n. - toto2 17.08.2011

comment

@toto2 toto2 Текст, который я обрабатываю, поступает из API Boilerpipe (внешний процессор HTML) и содержит разрывы строк в соответствии с содержимым HTML. - Renato Dinhani 17.08.2011

Ответы (5)

arrow_upward
7
arrow_downward

Вы можете использовать lookbehind, как предложил @Piotr Findeisen (+1):

public class RegexExample{
    public static void main(String[] args) {
    String s = "firstWordWithSpaceAfter secondWordWithSpaceAfter wordWithLineBreakAfter\nlastWord";
    String sa[] = s.split("(?<=[ \\n])");
    for (String saa : sa )
        System.out.println("[" + saa + "]");
    }
}

Выход:

[firstWordWithSpaceAfter ]
[secondWordWithSpaceAfter ]
[wordWithLineBreakAfter
]
[lastWord]

Краткое объяснение:

?<= заглядывает назад, что означает, что вы получили совпадение, если данные перед искомым выражением равны регулярному выражению, идущему после ?<= (в данном случае [ \\n])

[ \\n] – это регулярное выражение, означающее один из символов в []

поэтому все регулярное выражение говорит о разделении каждый раз, когда символ перед выражением/словом является либо пробелом, либо \n.

Поскольку мы не пытались сопоставить пробел или \n, они не будут удалены.

MByD 17.08.2011

comment

@Renato Dinhani Conceição - я не эксперт по регулярным выражениям, но надеюсь, что его редактирование достаточно понятно. - MByD; 17.08.2011

comment

Вы помещаете свое регулярное выражение в круглые скобки. Это необходимо? - Renato Dinhani; 17.08.2011

comment

Да, забыл упомянуть, это часть ретроспективы. - MByD; 17.08.2011

comment

Спасибо за ответ и объяснение. Работал! :D - Renato Dinhani; 17.08.2011

arrow_upward
5
arrow_downward

Рассмотрите возможность использования положительного просмотра назад/упреждения нулевой ширины. См. шаблон javadoc в < em>Специальные конструкции (без захвата)

Piotr Findeisen 17.08.2011

arrow_upward
0
arrow_downward

Я думаю, что ваш единственный вариант - сделать что-то вроде этого:

String myString = "Joe Blow\n1234 Fake Road\nHere, There, 12345";
String[] lines = myString.split("\\n");
Set<String[]> wordsByLine = new LinkedHashSet<String[]>();
for (String line : lines) {
  wordsByline.add(line.split(" "));
}

josh.trow 17.08.2011

arrow_upward
0
arrow_downward

Очень быстро пришло мне в голову, если бы регулярное выражение всегда соответствовало одиночным символам, вы могли бы использовать длину, чтобы определить, где они находились в исходной строке. Затем вы можете взять подстроку для символа-разделителя.

Немного грязно, но должно сработать.

Tom Elliott 17.08.2011

arrow_upward
-1
arrow_downward

Я все еще не уверен, что вы пытаетесь сделать, но если \n имеет значение, отличное от " ", вы должны иметь дело с ними отдельно.

String[] sentences = text.split("\\n");
...
for (String sentence : sentences) {
    ...
    String[] words = sentence.split(" ");
    ...
}

toto2 17.08.2011

Как разделить текст с помощью регулярных выражений, но разделенные слова продолжают сохранять разделитель регулярных выражений?

Ответы (5)

Похожие вопросы