用lxml和请求进行HTML抓取

2024-09-30 08:20:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我像本教程一样,http://docs.python-guide.org/en/latest/scenarios/scrape/,废弃了一个html表,但它不能很好地工作。在

我的代码:

import requests
from lxml import html

page = requests.get('http://www.dti.ufv.br/horario/horario.asp?ano=2015&semestre=1&depto=MAT')
tree = html.fromstring(page.text)

vaga = tree.xpath('/html/body/center/table/tbody/tr[2]/td/table[2]/tbody/tr[108]/td[9]')
print vaga

我想问题出在XPath。。。我用谷歌Chrome的教程里说的那样做了,但这和教程里的不一样。有人能帮我找到正确的XPath吗?谢谢各位!在


Tags: importtreehttpdocshtmlpagetable教程
1条回答
网友
1楼 · 发布于 2024-09-30 08:20:31

在HTML内容中,没有tbody标记。在

在代码中,我们考虑使用tbody标记来查找目标标记。在

vaga = tree.xpath('/html/body/center/table/tbody/tr[2]/td/table[2]/tbody/tr[108]/td[9]')

这将始终返回空列表,因为HTML内容中不存在tbody标记。在

HTml内容:

^{pr2}$

相关问题 更多 >

    热门问题