Намерете и заменете в текстов файл с помощта на регулярни изрази

Имам няколкостотин .docx документа, които конвертирам в маркдаун. Използвам textutil за конвертиране на .docx в html и Pandoc за конвертиране на html в Markdown.

Проблемът, който имам, е, че оригиналните .docx файлове съдържат капачки. В текстовия файл сега имам първата буква (която беше капка), отделена от нейния параграф с нов ред. изглежда така:

T

he following five basic pre-conditions are essential...

Използвам mac (10.6.8) и textmate. Textmate позволява намиране и замяна с помощта на регулярни изрази.

Как е възможно да се премахне прекъсването на реда и отново да се съедини разделената буква с останалата част от нейния параграф?


person rev    schedule 23.04.2012    source източник
comment
Вероятно трябва да направите отделен въпрос за групова обработка на папка с нейните подпапки, тъй като всъщност не е свързано с търсене/замяна в Textmate.   -  person alan    schedule 23.04.2012


Отговори (1)


За търсенето опитайте това:

^([A-Z])[\r\n]+(\w+)\b

За замяната:

$1$2
person alan    schedule 23.04.2012