Трябва да извлека текст от големи файлове (макс. ограничение 50MB) Файловете могат да бъдат във формат doc, ppt, xls, txt или pdf. Досега използвах Apache POI 'http://poi.apache.org/'
За документи на Microsoft Office и PDFBox за извличане на текст от PDF. Процесът на извличане обаче се забавя, тъй като файловете стават големи, особено със следващите файлове. Резултати, които постигнах досега:
1.PPTX - 45MB - 3 минути apx
2.PDF - 62 MB - 2 минути apx
3.Docx - 32MB - 15 секунди apx
4.XLS - 17MB - 10 секунди apx
5.XLSX - 7MB - 20 секунди apx
Имам нужда процесът да е бърз. Кои API мога да използвам, за да постигна това, и какви най-добри практики могат да ми помогнат да подобря производителността на моето приложение?