Я пытаюсь автоматизировать сортировку своих расходов в отчете о кредитной карте, которую предоставляет мой банк.
Я нашел табулу, которая работала как чудо во многих pdf-файлах, упрощая преобразование в csv, а затем обрабатывая его так, как я хочу, всего двумя строками кода: https://tabula-py.readthedocs.io/en/latest/tabula.html#high-level-interfaces
from tabula import convert_into_by_batch
convert_into_by_batch('movements', output_format='csv', pages='all')
Но у меня проблемы, потому что в некоторых pdf я вообще не получаю результатов, и мне это не кажется логичным. Потому что:
- PDF-файлы выглядят одинаково. По понятным причинам не могу показать исходный файл, но могу поделиться двумя размытыми скриншотами, на которых видно, что файлы практически идентичны. Тот, что за февраль, отлично определяется табулой, а другой - нет:
- У меня нет доступа к тому, как генерируются эти PDF-файлы, но я предполагаю, что они всегда следуют одной и той же процедуре. Поскольку это не то, что происходит в новых PDF-файлах или старых PDF-файлах, а случайно в других промежуточных файлах.
Могу ли я что-нибудь сделать, чтобы изменить способ определения таблиц tabula, чтобы сделать его более точным?