Я извлек текст из pdf построчно с помощью pdfbox, чтобы обработать его с помощью моего алгоритма по предложениям.
Я узнаю предложения по точке (.), За которой следует слово, первая буква которого заглавная. Здесь проблема в том, что когда предложение заканчивается словом с надстрочным индексом, экстрактор рассматривает его как обычный символ и помещает его рядом с точкой (.)
Например: выражение «2 степень 22», когда оно появилось в качестве последнего слова в предложении, то есть с точкой, было извлечено как 2.22, что затрудняет определение конца предложения.
Пожалуйста, предложите решение, чтобы избавиться от суперсценария, или другую логику для определения конца предложения.
Спасибо.
PdfTextStripper
, который отбрасывает текст мелким шрифтом. - person mkl   schedule 29.03.2014