Използвам метода PDPage.convertToImage() на PDFBox, за да конвертирам страници от зареден PDF файл в изображения. Работи добре за някои PDF файлове, но ми дава грешки на конзолата за много файлове, които след това не се изобразяват правилно на екрана - липсват изображения и текст.
Dec 31, 2013 7:15:34 PM org.apache.pdfbox.util.PDFStreamEngine processOperator
INFO: unsupported/disabled operation: EI
Dec 31, 2013 7:15:34 PM org.apache.pdfbox.pdmodel.font.PDTrueTypeFont getawtFont
INFO: Using font SansSerif.plain instead
Dec 31, 2013 7:02:15 PM org.apache.pdfbox.util.PDFStreamEngine processOperator
INFO: unsupported/disabled operation: i
Зареждането на файла се извършва просто с помощта на:
PDDocument pdfDoc = PDDocument.load(file);
List<PDPage> pages = pdfDoc.getContent().getDocumentCatalog().getAllPages();
PDPage page = pages.get(pageNo);
page.convertToImage();
Опитах да използвам loadNonSeq() вместо load(), но това не помогна. Има ли нещо, което трябва да направя с PDFStreamEngine, за да му позволя да обработва тези PDF файлове? Не съм сигурен дали четецът всъщност не може да изобрази тези или функционалността трябва да бъде активирана по някакъв начин.
i
дефинира толеранса на изравняване на кривата, така че това едва ли е критичен проблем тук. Странно: грешката предполагаBI
изглежда внедрена, ноEI
не е -- освен ако вашият PDF не е деформиран! За общ (европейски..) текст заместващият шрифт не трябва да води до липсващ текст. - person Jongware   schedule 01.01.2014page.convertToImage()
, но получих само неподдържана/деактивирана операция: i информация, не и другите, и изображенията изглеждат според очакванията. По този начин може да е проблем или във вашата версия на PDFBox (тествам с trunk, т.е. 2.0.0-SNAPSHOT, който трябва да е практически идентичен с 1.8.4 в това отношение), или в средата за изпълнение (jdk 1.7, не без глава, в среда на MS Windows). - person mkl   schedule 23.01.2014