Найти и заменить в текстовом файле с помощью регулярных выражений

У меня есть несколько сотен документов .docx, которые я конвертирую в уценку. Я использую textutil для преобразования .docx в html и Pandoc для преобразования html в Markdown.

У меня проблема в том, что исходные файлы .docx содержат буквицы. В текстовом файле у меня теперь есть первая буква (которая была буквицей), отделенная от абзаца разрывом строки. это выглядит так:

T

he following five basic pre-conditions are essential...

Я использую Mac (10.6.8) и textmate. Textmate позволяет находить и заменять с помощью регулярных выражений.

Как можно удалить разрыв строки и соединить отделенную букву с остальной частью абзаца?


person rev    schedule 23.04.2012    source источник
comment
Вероятно, вам следует задать отдельный вопрос для пакетной обработки папки с ее подпапками, поскольку на самом деле это не связано с поиском/заменой в Textmate.   -  person alan    schedule 23.04.2012


Ответы (1)


Для поиска попробуйте следующее:

^([A-Z])[\r\n]+(\w+)\b

Для замены:

$1$2
person alan    schedule 23.04.2012