我正在尝试抓取这个站点https://propaccess.trueautomation.com/ClientDB/Property.aspx?prop_id=17471
我可以直接在我的url栏中输入地址,得到我想要的结果,但是当我在python中抓取时,我只得到一个“运行时错误”页面的源代码。在
我想这可能和https有关,因为我可以像craigslist一样清晰地抓取页面。在
我的代码如下
import urllib
import re
domain = "https://propaccess.trueautomation.com/ClientDB/Property.aspx?
prop_id=17471"
htmlfile = urllib.urlopen(domain)
htmltext = htmlfile.read()
print htmltext
我对python不熟悉,但不熟悉因特网。我假设如果我能成功地在浏览器中输入url,我就能在python中输入相同的url。似乎不是这样,我也不知道为什么。在
谢谢。 迈克
更新:如果我在一个从未使用过的浏览器中浏览到这个url,我会得到“运行时错误”页面。在
我无法访问你链接的页面。 似乎您正在进行身份验证会话,而您的python代码当然不知道发生了什么。因此,它将返回“permission denied”或类似的结果。在
如果是这样,您可能希望在请求时传递会话cookie。 希望
Requests
库能满足您的需要。在(http://docs.python-requests.org/en/latest/user/advanced/#session-objects)
提示:当你做抓取工作时,使用匿名模式查看网页。 页面的外观与您的python环境完全相同。在
相关问题 更多 >
编程相关推荐