Прочтите несколько страниц PDF-файла с помощью read_lines

Я использую pdftools для импорта текста в R из pdf и readr, чтобы читать его построчно. Он работает для первой страницы, но на этом заканчивается.

Кажется, что было бы так просто читать на всех страницах документа, и все же я получаю тот же результат с несколькими разными документами. Следуя примеру кода, есть ли какой-то шаг, который мне не хватает?

install.packages("pdftools")
install.packages("readr")
library(pdftools)
library(readr)    

download.file("http://www.africau.edu/images/default/sample.pdf", 
"sample.pdf")
sample <- pdf_text("sample.pdf")
sample <- read_lines(sample)

print(sample)

Возможно, уместно добавить, выполнение команды read_lines дает предупреждение: «выполнение команды read_lines дает следующее:

 "Warning message:
  In if (grepl("\n", file)) { :
  the condition has length > 1 and only the first element will be used""

person votmoyd    schedule 11.12.2018    source источник
comment
Просто попробовал ваш код и с тем же файлом, который вы использовали, и смог прочитать обе страницы.   -  person Taher Ahmed Ghaleb    schedule 11.12.2018
comment
Тогда я в тупике. Я попробовал еще раз, и он останавливается на последней строке на первой странице.   -  person votmoyd    schedule 11.12.2018
comment
Что выводит pdf_text("sample.pdf")?   -  person Taher Ahmed Ghaleb    schedule 11.12.2018
comment
Это по-прежнему показывает только 1-ю страницу. Возможно, уместно добавить, выполнение команды read_lines дает следующее: Предупреждающее сообщение: В if (grepl (\ n, file)) {: длина условия ›1 и будет использоваться только первый элемент   -  person votmoyd    schedule 11.12.2018
comment
Итак, эта команда length(pdf_text("sample.pdf")) дает вам 1 или 2?   -  person Taher Ahmed Ghaleb    schedule 11.12.2018
comment
2. . . так странно   -  person votmoyd    schedule 11.12.2018
comment
Попробуйте и позвольте мне, если это сработает для вас: s <- unlist(strsplit(sample, split = "\r\n"))   -  person Taher Ahmed Ghaleb    schedule 11.12.2018
comment
Это не так. Спасибо за предложения.   -  person votmoyd    schedule 11.12.2018
comment
Странный. У меня все нормально работает.   -  person Taher Ahmed Ghaleb    schedule 11.12.2018
comment
Я удалил readr и pdftools, перезапустил R и переустановил пакеты, и теперь все в порядке. Спасибо вам за помощь!   -  person votmoyd    schedule 11.12.2018
comment
Рад слышать. Всего наилучшего.   -  person Taher Ahmed Ghaleb    schedule 11.12.2018


Ответы (1)


Чтобы он заработал, удалили readr и pdftools, перезапустили R и переустановили пакеты.

person votmoyd    schedule 11.12.2018