我刚刚开始学习使用pythonBeautifulsoup
和请求库以及使用Pycharm工具进行web抓取
import requests
from bs4 import BeautifulSoup
result1 = requests.get("https://www.grainger.com/")
print('result1 is '+ str(result1.status_code))
当我使用这个网站时,它会持续加载,如果我使用google.com
,它会给出输出
我想知道为什么我没有得到上述网站的输出
Tags:
嗯。。。有几件事
要从此站点获取状态
200
,请指定User-Agent
HTTP头:印刷品:
这样做之所以有效,是因为有些网站会忽略那些似乎不是从web浏览器发出的请求。默认情况下,requests使用},因此网站可以告诉您没有从web浏览器请求网站。您的请求挂起并最终超时的原因可能是因为他们的服务器忽略了您的请求
User-Agent
{相关问题 更多 >
编程相关推荐