Вопросы по теме 'pdfminer'

Как получить местоположение текста в PDF с помощью PDFMiner?
В документации PDFMiner говорится: PDFMiner позволяет получить точное расположение текста на странице Однако я не смог найти, как это сделать. «Документация» PDFMiner довольно скудна, поэтому я не понял, как это сделать.
20788 просмотров
schedule 05.11.2023

Не удалось выполнить pdf2txt.py
Попытка преобразовать pdf-файлы в txt в среде Windows с помощью pdfminer в соответствии с этой записью: https://www.binpress.com/tutorial/manipulating-pdfs-with-python/167 Я скачал pdfminer и успешно запустил setup.py. Я не могу запустить pip...
2011 просмотров
schedule 22.02.2024

Версия PDFMiner отличается? Получение AttributeError: объект «PDFDocument» не имеет атрибута «искать»
Я поднял некоторый код Python из предыдущего вопроса SO, но код был написан для предыдущей версии PDFMiner (и, похоже, с тех пор в PDFMiner были внесены некоторые серьезные изменения). Я уже внес пару изменений для устранения ошибок, но теперь я...
4951 просмотров
schedule 15.11.2022

python pdfminer преобразует файл PDF в один фрагмент строки без пробелов между словами
Я использовал следующий код, в основном взятый из ответа DuckPuncher на этот пост Извлечение текста из PDF-файла с помощью PDFMiner в python? для преобразования PDF-файлов в текстовые файлы: def convert_pdf_to_txt(path): rsrcmgr =...
1583 просмотров
schedule 03.12.2022

PDFMiner не анализирует более 1 страницы
Я использую PDFMiner6 с Python 3.5. Это намного лучше, чем PyPDF2 (медленнее, но точнее и не выдает кучу букв, не разделенных пробелами). Я попытался разобрать этот документ: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2963791/ (Вы можете...
387 просмотров
schedule 29.04.2024

Как извлечь текст в области страницы PDF с помощью PDFminer?
Я пытаюсь извлечь текст и числовые данные из таблиц на страницах PDF в рамках проекта оцифровки и интеллектуального анализа данных. Количество обрабатываемых PDF-документов превышает 80 000, и каждый из них может иметь от 4 до 80 страниц,...
616 просмотров
schedule 06.01.2024

Извлечение PDFMiner для отдельных слов - LTText LTTextBox
Я генерирую координаты слова x, y с помощью PDFMiner в приведенном ниже примере, однако результаты построчно. Как я могу отделить каждое слово от другого слова, а не разделить группы слов построчно (см. пример ниже). Я попробовал несколько...
1422 просмотров
schedule 16.02.2024

PDFminer — есть ли способ конвертировать pdf в html из pdfminer?
Простой способ конвертировать pdf в html с помощью pdfminer? Я видел много подобных вопросов, но они не дадут мне правильного ответа... Я ввел это в приглашение ConEmu: # pdf2txt.py -o output.html -t html sample.pdf usage: C:\Program...
1601 просмотров
schedule 15.01.2024