Прежде всего, я новичок в python и Stack Overflow, поэтому, пожалуйста, будьте добры.
Это исходный код html-страницы, из которой я хочу извлечь данные.
Веб-страница: http://gbgfotboll.se/information/?scr=table&ftid=51168 Таблица находится внизу страницы
<html>
table class="clCommonGrid" cellspacing="0">
<thead>
<tr>
<td colspan="3">Kommande matcher</td>
</tr>
<tr>
<th style="width:1%;">Tid</th>
<th style="width:69%;">Match</th>
<th style="width:30%;">Arena</th>
</tr>
</thead>
<tbody class="clGrid">
<tr class="clTrOdd">
<td nowrap="nowrap" class="no-line-through">
<span class="matchTid"><span>2014-09-26<!-- br ok --> 19:30</span></span>
</td>
<td><a href="?scr=result&fmid=2669197">Guldhedens IK - IF Warta</a></td>
<td><a href="?scr=venue&faid=847">Guldheden Södra 1 Konstgräs</a> </td>
</tr>
<tr class="clTrEven">
<td nowrap="nowrap" class="no-line-through">
<span class="matchTid"><span>2014-09-26<!-- br ok --> 13:00</span></span>
</td>
<td><a href="?scr=result&fmid=2669176">Romelanda UF - IK Virgo</a></td>
<td><a href="?scr=venue&faid=941">Romevi 1 Gräs</a> </td>
</tr>
<tr class="clTrOdd">
<td nowrap="nowrap" class="no-line-through">
<span class="matchTid"><span>2014-09-27<!-- br ok --> 13:00</span></span>
</td>
<td><a href="?scr=result&fmid=2669167">Kode IF - IK Kongahälla</a></td>
<td><a href="?scr=venue&faid=912">Kode IP 1 Gräs</a> </td>
</tr>
<tr class="clTrEven">
<td nowrap="nowrap" class="no-line-through">
<span class="matchTid"><span>2014-09-27<!-- br ok --> 14:00</span></span>
</td>
<td><a href="?scr=result&fmid=2669147">Floda BoIF - Partille IF FK </a></td>
<td><a href="?scr=venue&faid=218">Flodala IP 1</a> </td>
</tr>
</tbody>
</table>
</html>
Мне нужно извлечь время: 19:30 и название команды: Guldhedens IK - IF Warta, что означает первую и вторую ячейку таблицы (не третью) из первой строки таблицы и 13:00/Romelanda UF - IK Virgo из вторая строка таблицы и т. д. из всех строк таблицы.
Как вы можете видеть, каждая строка таблицы имеет дату прямо перед временем, так что здесь начинается сложная часть. Я хочу получить только время и имена команд, как указано выше, из тех строк таблицы, где дата равна дате, когда я запускаю этот код.
Единственное, что мне пока удалось сделать, это немного, я могу только получить время и название команды, используя этот код:
import lxml.html
html = lxml.html.parse("http://gbgfotboll.se/information/?scr=table&ftid=51168")
test=html.xpath("//*[@id='content-primary']/table[3]/tbody/tr[1]/td[1]/span/span//text()")
print test
что дает мне результат ['2014-09-26', ' 19:30'] после этого я не понимаю, как перебирать разные строки таблицы, желая получить конкретные ячейки таблицы, где дата соответствует дате, когда я запускаю код.
Я надеюсь, что вы можете ответить столько, сколько сможете.