Публикации по тематике pdfminer

Вопросы по теме 'pdfminer'

Как получить местоположение текста в PDF с помощью PDFMiner?

В документации PDFMiner говорится: PDFMiner позволяет получить точное расположение текста на странице Однако я не смог найти, как это сделать. «Документация» PDFMiner довольно скудна, поэтому я не понял, как это сделать.

20788 просмотров

05.11.2023

Не удалось выполнить pdf2txt.py

Попытка преобразовать pdf-файлы в txt в среде Windows с помощью pdfminer в соответствии с этой записью: https://www.binpress.com/tutorial/manipulating-pdfs-with-python/167 Я скачал pdfminer и успешно запустил setup.py. Я не могу запустить pip...

2011 просмотров

python python-2.7 pdfminer

22.02.2024

Версия PDFMiner отличается? Получение AttributeError: объект «PDFDocument» не имеет атрибута «искать»

Я поднял некоторый код Python из предыдущего вопроса SO, но код был написан для предыдущей версии PDFMiner (и, похоже, с тех пор в PDFMiner были внесены некоторые серьезные изменения). Я уже внес пару изменений для устранения ошибок, но теперь я...

4951 просмотров

python pdfminer

15.11.2022

python pdfminer преобразует файл PDF в один фрагмент строки без пробелов между словами

Я использовал следующий код, в основном взятый из ответа DuckPuncher на этот пост Извлечение текста из PDF-файла с помощью PDFMiner в python? для преобразования PDF-файлов в текстовые файлы: def convert_pdf_to_txt(path): rsrcmgr =...

1583 просмотров

python-3.x pdfminer

03.12.2022

PDFMiner не анализирует более 1 страницы

Я использую PDFMiner6 с Python 3.5. Это намного лучше, чем PyPDF2 (медленнее, но точнее и не выдает кучу букв, не разделенных пробелами). Я попытался разобрать этот документ: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2963791/ (Вы можете...

387 просмотров

python pypdf2 pdfminer

29.04.2024

Как извлечь текст в области страницы PDF с помощью PDFminer?

Я пытаюсь извлечь текст и числовые данные из таблиц на страницах PDF в рамках проекта оцифровки и интеллектуального анализа данных. Количество обрабатываемых PDF-документов превышает 80 000, и каждый из них может иметь от 4 до 80 страниц,...

616 просмотров

python pdfminer

06.01.2024

Извлечение PDFMiner для отдельных слов - LTText LTTextBox

Я генерирую координаты слова x, y с помощью PDFMiner в приведенном ниже примере, однако результаты построчно. Как я могу отделить каждое слово от другого слова, а не разделить группы слов построчно (см. пример ниже). Я попробовал несколько...

1422 просмотров

python nlp pdfminer

16.02.2024

PDFminer — есть ли способ конвертировать pdf в html из pdfminer?

Простой способ конвертировать pdf в html с помощью pdfminer? Я видел много подобных вопросов, но они не дадут мне правильного ответа... Я ввел это в приглашение ConEmu: # pdf2txt.py -o output.html -t html sample.pdf usage: C:\Program...

1601 просмотров

python pdf pdfminer pdf-to-html

15.01.2024

Вопросы по теме 'pdfminer'

Похожие вопросы