Мне нужно извлечь текст из больших файлов (максимальный размер 50 МБ). Файлы могут быть в формате doc, ppt, xls, txt или pdf. До сих пор я использовал Apache POI 'http://poi.apache.org/'
Для документов Microsoft Office и PDFBox для извлечения текста из PDF. Однако процесс извлечения становится медленным, поскольку файлы становятся большими, особенно со следующими файлами. Результаты, которых я достиг на данный момент:
1.PPTX — 45 МБ — 3 минуты примерно
2.PDF — 62 МБ — 2 минуты примерно
3.Docx — 32 МБ — примерно 15 секунд
4.XLS — 17 МБ — примерно 10 секунд
5.XLSX — 7 МБ — 20 секунд примерно
Мне нужно, чтобы процесс был быстрым. Какие API я могу использовать для достижения этой цели и какие передовые практики могут помочь мне повысить производительность моего приложения?