我正试图从网站上获取数据https://angel.co/bloomfire
import requests
from bs4 import BeautifulSoup
res = requests.get('https://angel.co/pen-io')
soup = BeautifulSoup(res.content, 'html.parser')
print(soup.prettify())
这将打印标题标记为“页面未找到-404-AngelList”。 在webbrowser中,该网站运行良好,但其源代码与我的python脚本的输出不同。 我也在phantomjs中使用了selenium,但它显示了相同的东西
在requests参数中添加页眉可以访问页面。以下是“人们也看到了”的结果。请尝试以下脚本:
结果:
^{pr2}$看起来像天使公司将根据发送的
User-Agent
使用HTTP 404
响应,看起来它将阻止默认的requests
代理(可能取决于版本)。这可能会阻碍机器人活动。在下面是我的
ipython
会话的一些输出。我正在使用requests/2.17.3
。在使用默认的Python请求用户代理
使用与Mozilla兼容的用户代理
^{pr2}$rsp.content
包含您希望看到的内容天使公司/布鲁姆. 在使用一些随机用户代理
因此,您应该设置
User-Agent
,以绕过angle为各种默认代理使用的任何类型的过滤/阻塞。在如果你要做大量的清理工作,我建议你做一个好公民,并设置一个代理字符串,让他们在你的刮蹭引起问题时联系你,比如:
相关问题 更多 >
编程相关推荐