читать текст с определенной страницы с помощью PDFBox

Я знаю, как читать текст всего pdf-файла с помощью PDFBox, используя PDFTextStripper.getText(PDDocument).

У меня также есть пример того, как получить ссылку объекта на определенную страницу, используя PDDocumentCatalog.getAllPages().get(i).

Как мне получить текст только одной страницы с помощью PDFBox, поскольку я не вижу такого метода в классе PDPage?


person Shyam Sundar Ananthaswamy    schedule 26.11.2012    source источник


Ответы (1)


Вы можете установить параметры в PDFTextStripper для чтения определенных страниц. :

PDDocument doc; // document
int i; // page no.

PDFTextStripper reader = new PDFTextStripper();
reader.setStartPage(i);
reader.setEndPage(i);
String pageText = reader.getText(doc);

Насколько мне известно, PDPage более используется для представления страницы на экране, а не для извлечения текста. Таким образом, я бы не рекомендовал использовать это для извлечения текста.

person amaidment    schedule 28.03.2013