Я использую pdftools для импорта текста в R из pdf и readr, чтобы читать его построчно. Он работает для первой страницы, но на этом заканчивается.
Кажется, что было бы так просто читать на всех страницах документа, и все же я получаю тот же результат с несколькими разными документами. Следуя примеру кода, есть ли какой-то шаг, который мне не хватает?
install.packages("pdftools")
install.packages("readr")
library(pdftools)
library(readr)
download.file("http://www.africau.edu/images/default/sample.pdf",
"sample.pdf")
sample <- pdf_text("sample.pdf")
sample <- read_lines(sample)
print(sample)
Возможно, уместно добавить, выполнение команды read_lines дает предупреждение: «выполнение команды read_lines дает следующее:
"Warning message:
In if (grepl("\n", file)) { :
the condition has length > 1 and only the first element will be used""
pdf_text("sample.pdf")
? - person Taher Ahmed Ghaleb   schedule 11.12.2018length(pdf_text("sample.pdf"))
дает вам1
или2
? - person Taher Ahmed Ghaleb   schedule 11.12.2018s <- unlist(strsplit(sample, split = "\r\n"))
- person Taher Ahmed Ghaleb   schedule 11.12.2018