在python中web抓取https时发生服务器错误

2024-10-03 21:32:12 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试抓取这个站点https://propaccess.trueautomation.com/ClientDB/Property.aspx?prop_id=17471

我可以直接在我的url栏中输入地址,得到我想要的结果,但是当我在python中抓取时,我只得到一个“运行时错误”页面的源代码。在

我想这可能和https有关,因为我可以像craigslist一样清晰地抓取页面。在

我的代码如下

import urllib
import re

domain = "https://propaccess.trueautomation.com/ClientDB/Property.aspx?
prop_id=17471"


htmlfile = urllib.urlopen(domain)
htmltext = htmlfile.read()
print htmltext

我对python不熟悉,但不熟悉因特网。我假设如果我能成功地在浏览器中输入url,我就能在python中输入相同的url。似乎不是这样,我也不知道为什么。在

谢谢。 迈克

更新:如果我在一个从未使用过的浏览器中浏览到这个url,我会得到“运行时错误”页面。在


Tags: httpsimportcomidurldomain错误property
1条回答
网友
1楼 · 发布于 2024-10-03 21:32:12

我无法访问你链接的页面。 似乎您正在进行身份验证会话,而您的python代码当然不知道发生了什么。因此,它将返回“permission denied”或类似的结果。在

如果是这样,您可能希望在请求时传递会话cookie。 希望Requests库能满足您的需要。在

http://docs.python-requests.org/en/latest/user/advanced/#session-objects

提示:当你做抓取工作时,使用匿名模式查看网页。 页面的外观与您的python环境完全相同。在

相关问题 更多 >