Вопросы по теме 'pdfminer'
Как получить местоположение текста в PDF с помощью PDFMiner?
В документации PDFMiner говорится:
PDFMiner позволяет получить точное расположение текста на странице
Однако я не смог найти, как это сделать. «Документация» PDFMiner довольно скудна, поэтому я не понял, как это сделать.
20788 просмотров
schedule
05.11.2023
Не удалось выполнить pdf2txt.py
Попытка преобразовать pdf-файлы в txt в среде Windows с помощью pdfminer в соответствии с этой записью: https://www.binpress.com/tutorial/manipulating-pdfs-with-python/167
Я скачал pdfminer и успешно запустил setup.py. Я не могу запустить pip...
2011 просмотров
schedule
22.02.2024
Версия PDFMiner отличается? Получение AttributeError: объект «PDFDocument» не имеет атрибута «искать»
Я поднял некоторый код Python из предыдущего вопроса SO, но код был написан для предыдущей версии PDFMiner (и, похоже, с тех пор в PDFMiner были внесены некоторые серьезные изменения). Я уже внес пару изменений для устранения ошибок, но теперь я...
4951 просмотров
schedule
15.11.2022
python pdfminer преобразует файл PDF в один фрагмент строки без пробелов между словами
Я использовал следующий код, в основном взятый из ответа DuckPuncher на этот пост Извлечение текста из PDF-файла с помощью PDFMiner в python? для преобразования PDF-файлов в текстовые файлы:
def convert_pdf_to_txt(path):
rsrcmgr =...
1583 просмотров
schedule
03.12.2022
PDFMiner не анализирует более 1 страницы
Я использую PDFMiner6 с Python 3.5. Это намного лучше, чем PyPDF2 (медленнее, но точнее и не выдает кучу букв, не разделенных пробелами). Я попытался разобрать этот документ:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2963791/ (Вы можете...
387 просмотров
schedule
29.04.2024
Как извлечь текст в области страницы PDF с помощью PDFminer?
Я пытаюсь извлечь текст и числовые данные из таблиц на страницах PDF в рамках проекта оцифровки и интеллектуального анализа данных.
Количество обрабатываемых PDF-документов превышает 80 000, и каждый из них может иметь от 4 до 80 страниц,...
616 просмотров
schedule
06.01.2024
Извлечение PDFMiner для отдельных слов - LTText LTTextBox
Я генерирую координаты слова x, y с помощью PDFMiner в приведенном ниже примере, однако результаты построчно. Как я могу отделить каждое слово от другого слова, а не разделить группы слов построчно (см. пример ниже). Я попробовал несколько...
1422 просмотров
schedule
16.02.2024
PDFminer — есть ли способ конвертировать pdf в html из pdfminer?
Простой способ конвертировать pdf в html с помощью pdfminer? Я видел много подобных вопросов, но они не дадут мне правильного ответа...
Я ввел это в приглашение ConEmu:
# pdf2txt.py -o output.html -t html sample.pdf
usage: C:\Program...
1601 просмотров
schedule
15.01.2024