Мне нужно автоматизировать преобразование многих pdf в текстовые файлы с помощью AWS lambda в python 3.7.
Я успешно конвертировал pdf-файлы с помощью poppler/pdftotext, tika и PyPDF2 на своей машине. Однако время ожидания истекло или ему нужно запустить экземпляр Java на хост-компьютере, который я не знаю, как настроить. pdftotext нуждается в poppler, и все решения для его запуска на лямбде кажутся устаревшими, или я просто недостаточно знаком с двоичными файлами, чтобы понять это решение. PyPDF2 кажется наиболее многообещающим, но тестирование выдает ошибку.
Код и ошибка, которые я получаю для PyPDF2, следующие:
pdf_file = open(s3.Bucket(my_bucket).download_file('test.pdf','test.pdf'),'rb')
"errorMessage": "[Errno 30] Read-only file system: 'test.pdf.3F925aC8'",
"errorType": "OSError",
and if I try to reference it directly,
pdf_file = open('https://s3.amazonaws.com/' + my_bucket + '/test.pdf', 'rb')
"errorMessage": "[Errno 2] No such file or directory: 'https://s3.amazonaws.com/my_bucket/test.pdf'",
"errorType": "FileNotFoundError",