У меня есть несколько сотен документов .docx, которые я конвертирую в уценку. Я использую textutil для преобразования .docx в html и Pandoc для преобразования html в Markdown.
У меня проблема в том, что исходные файлы .docx содержат буквицы. В текстовом файле у меня теперь есть первая буква (которая была буквицей), отделенная от абзаца разрывом строки. это выглядит так:
T
he following five basic pre-conditions are essential...
Я использую Mac (10.6.8) и textmate. Textmate позволяет находить и заменять с помощью регулярных выражений.
Как можно удалить разрыв строки и соединить отделенную букву с остальной частью абзаца?