Размещение нескольких сотен страниц .doc на веб-странице

У меня есть сотни файлов .doc с текстом, который мне нужно разместить на веб-страницах.

Я понимаю, что могу преобразовать каждый файл .doc в .txt, а затем использовать включение на стороне сервера для встраивания содержимого каждой страницы в веб-страницу. Это сэкономило бы много времени, потому что я мог бы просто иметь одну страницу .php?txt=..., которая будет отображать разные включения .txt в зависимости от ссылки, которую пользователь нажал, чтобы попасть туда. Это отлично работает по содержанию.

Однако все форматирование теряется при преобразовании в .txt (заголовки должны быть выделены жирным шрифтом)

Когда я конвертирую эти файлы .doc в .html с помощью Microsoft Word, документы с ~ 20 строками становятся раздутыми> 300 файлов строк .htm (вероятно, потому, что каждый абзац помещается в текстовые поля)

«Очистка Word HTML» от Dreamweaver немного помог, но код все еще был чрезвычайно раздутым.

Как бы вы предложили поступить по этому поводу?

редактировать: возможно, я решил свой вопрос, пытаясь встроить документы Google на свою страницу.


person bbb    schedule 14.07.2010    source источник


Ответы (5)


Существует набор программ под названием wv (бывший mswordview). Есть программа wvWare. Это программное обеспечение может преобразовывать документы Word в HTML.

Кроме того, вы можете использовать вывод из Word и отправить его через приборку. Это исправляет разметку и обычно может исправить ошибки, допущенные Word.

person qbi    schedule 14.07.2010


MS Word — это вирусы. Его собственная разметка раздута, и поэтому любая попытка автоматического преобразования в HTML унаследует эти проблемы. В итоге вы получаете мусор вроде: <strong><strong></strong></strong> без уважительной причины.

Dreamweaver может многое подчистить, но ничего, кроме удаления/пометки, не даст вам чистых результатов.

Вот почему большинство людей используют PDF-файлы для решения таких задач.

person Diodeus - James MacFarlane    schedule 14.07.2010
comment
Я в основном обеспокоен тем, что мобильные устройства не могут читать файлы PDF. - person bbb; 14.07.2010

Моей немедленной реакцией было бы преобразовать документы в PDF-файлы. Это, как правило, достаточно хорошо сохраняет форматирование, и пользователи обычно настраивают свои браузеры для просмотра PDF-файлов тем или иным способом (а те немногие, кто этого не делает, несомненно, привыкли к тому, что не могут просматривать большое количество документов на многих сайтах).

person Jerry Coffin    schedule 14.07.2010

Хорошо, спасибо всем за ваши предложения, но я хотел сделать эту страницу доступной для всех без просмотра PDF.

Документы Google позволяют массово загружать текстовые файлы (а также конвертировать их для вас)

Затем вы можете экспортировать их в iframe для встраивания в любой HTML-документ.

person bbb    schedule 14.07.2010
comment
Вы можете принять свой собственный ответ только после ограничения времени, около 20 минут или около того. - person Hello71; 15.07.2010