Имам няколкостотин .docx документа, които конвертирам в маркдаун. Използвам textutil за конвертиране на .docx в html и Pandoc за конвертиране на html в Markdown.
Проблемът, който имам, е, че оригиналните .docx файлове съдържат капачки. В текстовия файл сега имам първата буква (която беше капка), отделена от нейния параграф с нов ред. изглежда така:
T
he following five basic pre-conditions are essential...
Използвам mac (10.6.8) и textmate. Textmate позволява намиране и замяна с помощта на регулярни изрази.
Как е възможно да се премахне прекъсването на реда и отново да се съедини разделената буква с останалата част от нейния параграф?