urllib正在获取HTML,但缺少d

2024-09-29 22:30:07 发布

您现在位置:Python中文网/ 问答频道 /正文

基本上,我得到并显示了HTML,它在普通浏览器中显示了我要查找的数据,但在带有urllib的HTML转储文件中没有显示。在

示例URL:https://betfred.mobi/sports/horses/event/4315034.2

例如资料:马的名字像“她不是淑女”

在浏览器下显示很好。不需要任何登录或预先存在的cookies或任何东西。在

我想也许是等着看一个真正的用户代理之类的,但那也没关系。我正在设置一个,我已经检查过了-它起作用了。在

opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.124 Safari/537.36')]
response = opener.open("https://betfred.mobi/sports/horses/event/4315034.2")
print response.read()

它显示了一些正常的东西,我得到了一个网站的HTML转储,但马的名字,例如没有显示出来。在

我是不是错过了一些显而易见的东西?在


Tags: 文件数据httpsevent示例mobiresponsehtml
1条回答
网友
1楼 · 发布于 2024-09-29 22:30:07

如果您需要使用Javascript处理页面,请尝试WATIRSelenium-它们驱动真正的web浏览器,因此可以处理任何Javascript。watirclassic需要安装有特定扩展的IE或Firefox,当它工作时,你会看到页面在屏幕上闪烁。在

目前,Mechanize不处理JavaScript。在

您的另一个选择是理解有问题的页面上的Javascript做了什么,并手动绕过它,但这似乎很麻烦。在

相关问题 更多 >

    热门问题