Получить очистку из указанного столбца в таблице

Я пытаюсь найти клуб, за который играют футболисты, в списках игр (например, для Алана Ширера на http://www.transfermarkt.com/alan-shearer/leistungsdatendetails/spieler/3110/wettbewerb/GB1, в частности, в таблице № 3 самая большая озаглавленная "премьер-лига". )

Досадно, что клуб в колонке «За» таблицы закодирован как картинка с классом «tiny_wappen». Я могу очистить их и поместить в data.frame с помощью

link <- "http://www.transfermarkt.com/alan-shearer/leistungsdatendetails/spieler/3110/wettbewerb/GB1"
    UrlPage <- read_html (link)
    Node <- UrlPage %>% html_nodes("table") %>% `[`(3) %>% html_nodes("img.tiny_wappen")
    ClubFor <- data.frame(html_attr(Node, "alt"))

но некоторые (примерно каждый пятый) клубов в соседнем столбце (против) также относятся к этому классу изображений, поэтому я получаю список, усеянный клубами, против которых играли. Есть ли способ указать столбец таблицы для очистки (или какой-либо другой более умный способ добиться того, что я хочу)?

как всегда заблаговременно спасибо


person Robert Hickman    schedule 11.07.2016    source источник


Ответы (1)


Вы можете использовать xpaths для захвата четвертой ячейки каждой строки

Node <- UrlPage %>%
  html_nodes(xpath = "//*[@id='main']/div[9]/div[1]/div[2]/div[3]/table/tbody/tr/td[4]/a/img") 

ClubFor = Node %>%
  html_attr("alt") %>%
  data.frame()
person Akhil Nair    schedule 13.07.2016