使用python（Beautifulsoup）进行网页抓取

2条回答

网友

1楼 · 编辑于 2024-10-01 10:14:10

嗯。。。有几件事

该网站可能不存在
您正在使用http而不是https
该站点阻止抓取（发送用户代理标头）
这可能是请求的问题。尝试使用其他库

网友

2楼 · 编辑于 2024-10-01 10:14:10

要从此站点获取状态200，请指定User-AgentHTTP头：

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:81.0) Gecko/20100101 Firefox/81.0'}

result1 = requests.get("https://www.grainger.com/", headers=headers)

print('result1 is '+ str(result1.status_code))

印刷品：

result1 is 200

这样做之所以有效，是因为有些网站会忽略那些似乎不是从web浏览器发出的请求。默认情况下，requests使用User-Agent{}，因此网站可以告诉您没有从web浏览器请求网站。您的请求挂起并最终超时的原因可能是因为他们的服务器忽略了您的请求

编程相关推荐

如何在循环中增加Java8Lambda表达式中的“数字”？
字符串Java设置了在输出中提供一定数量空间的方法？
java是否存在JPA/Hibernate单向一对一映射在用于建模多对一关系时可能失败的情况？
版本错误：注册表项“Software\JavaSoft\Java Runtime Environment”\CurrentVersion
JavaTomcat8上下文。xml在数据源中使用环境变量
java如何使用Hibernate设置默认实体属性值
java在外部Tomcat中Spring Boot 2执行器工作吗
用Java编写大数幂函数的算法
用于缩放表示像素的字节数组的java函数
java我已经在应用程序中设置了oauth2属性。属性，如何在代码中使用它们？

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用python（Beautifulsoup）进行网页抓取

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >