我正在练习写一个网络爬虫从一个网站上抓取一些有趣的信息。我在我的个人网站上尝试这段代码。它的工作原理和我期望的一样,但是当我试图在一个真实的网站上实现这个代码时,它并没有显示它应该显示什么。有人有什么想法吗?下面是我的代码和结果。你知道吗
import requests
from bs4 import BeautifulSoup
url = 'https://angel.co/parkwhiz/jobs/284942-product-manager'
page = requests.get(url).text
soup = BeautifulSoup(page,'lxml')
print soup.prettify()
打印结果
来自firebug(或chrome inspect)的结果
印刷品上显示的标题是“找不到页面-404-AngelList”,但firebug上显示的标题是“parkwiz-AngelList的产品经理工作”。我的代码有什么问题吗?这两个不应该匹配吗?你知道吗
当您传递默认值
User-Agent
时,网站正在阻止脚本,这告诉网站它是一个自动化的Python脚本。你知道吗如果你检查状态码,你会看到你得到404。你知道吗
要克服这个问题,请将
User-Agent
更改为真正的浏览器:相关问题 更多 >
编程相关推荐