Първо, аз съм нов в python и Stack Overflow, така че, моля, бъдете любезни.
Това е изходният код на html страницата, от която искам да извлека данни.
Уеб страница: http://gbgfotboll.se/information/?scr=table&ftid=51168 Таблицата е в долната част на страницата
<html>
table class="clCommonGrid" cellspacing="0">
<thead>
<tr>
<td colspan="3">Kommande matcher</td>
</tr>
<tr>
<th style="width:1%;">Tid</th>
<th style="width:69%;">Match</th>
<th style="width:30%;">Arena</th>
</tr>
</thead>
<tbody class="clGrid">
<tr class="clTrOdd">
<td nowrap="nowrap" class="no-line-through">
<span class="matchTid"><span>2014-09-26<!-- br ok --> 19:30</span></span>
</td>
<td><a href="/bg?scr=result&fmid=2669197">Guldhedens IK - IF Warta</a></td>
<td><a href="/bg?scr=venue&faid=847">Guldheden Södra 1 Konstgräs</a> </td>
</tr>
<tr class="clTrEven">
<td nowrap="nowrap" class="no-line-through">
<span class="matchTid"><span>2014-09-26<!-- br ok --> 13:00</span></span>
</td>
<td><a href="/bg?scr=result&fmid=2669176">Romelanda UF - IK Virgo</a></td>
<td><a href="/bg?scr=venue&faid=941">Romevi 1 Gräs</a> </td>
</tr>
<tr class="clTrOdd">
<td nowrap="nowrap" class="no-line-through">
<span class="matchTid"><span>2014-09-27<!-- br ok --> 13:00</span></span>
</td>
<td><a href="/bg?scr=result&fmid=2669167">Kode IF - IK Kongahälla</a></td>
<td><a href="/bg?scr=venue&faid=912">Kode IP 1 Gräs</a> </td>
</tr>
<tr class="clTrEven">
<td nowrap="nowrap" class="no-line-through">
<span class="matchTid"><span>2014-09-27<!-- br ok --> 14:00</span></span>
</td>
<td><a href="/bg?scr=result&fmid=2669147">Floda BoIF - Partille IF FK </a></td>
<td><a href="/bg?scr=venue&faid=218">Flodala IP 1</a> </td>
</tr>
</tbody>
</table>
</html>
Трябва да извлека часа: 19:30 и името на отбора: Guldhedens IK - IF Warta, което означава първата и втората клетка на таблицата (не третата) от първия ред на таблицата и 13:00/Romelanda UF - IK Virgo от втори ред на таблица и т.н.. от всички редове на таблицата има.
Както можете да видите, всеки ред на таблица има дата точно преди часа, така че тук идва сложната част. Искам само да получа времето и имената на отборите, както е споменато по-горе, от онези редове на таблицата, където датата е равна на датата, на която изпълнявам този код.
Единственото нещо, което успях да направя досега, не е много, мога да получа само времето и името на отбора, използвайки този код:
import lxml.html
html = lxml.html.parse("http://gbgfotboll.se/information/?scr=table&ftid=51168")
test=html.xpath("//*[@id='content-primary']/table[3]/tbody/tr[1]/td[1]/span/span//text()")
print test
което ми дава резултата ['2014-09-26', ' 19:30'] след това съм изгубен как да итерирам различни редове на таблица, искайки конкретните клетки на таблицата, където датата съвпада с датата, на която изпълнявам кода.
Надявам се, че можете да отговорите колкото можете.