Я пишу собственный индексатор Lucene.NET, чтобы включить индексирование документов MS Word. Индексатор должен поддерживать работу с тремя последними выпусками MS Word: 2010, 2007 и 2003.
Планируется использовать сборки взаимодействия VSTO, которые устанавливаются как часть VS2010, для извлечения текстового содержимого из документов.
Есть ли лучший способ реализовать индексацию документов Word? Означает ли это, что мне придется установить на сервер все три версии Word? Или просто Word 2010?
Инструменты / Окружающая среда:
- Lucene.NET 2.3.1.3
- VS2010 / .NET 3.5
- Windows 2008 / IIS 7
Примечание. Подробнее о том, как это реализовать, см. в Текстовый поиск Sitecore в документах PDF или Word