我想从《纽约时报》网站上得到一些头条新闻。我有两个问题, 问题1: 这是我的代码,但我没有输出,有人知道我需要更改什么吗
import requests
from bs4 import BeautifulSoup
url = 'https://www.nytimes.com'
r = requests.get(url)
soup = BeautifulSoup(r.text, "html.parser")
a = soup.find_all(class_="balancedHeadline")
for story_heading in a:
print(story_heading)
我的第二个问题: 由于HTML对于所有标题都不相同(例如,对于大标题和小标题有不同的类),我如何在代码中使用所有这些不同的类并将所有标题作为输出
提前谢谢
BeautifulSoup是一个健壮的解析库。 但是,与您的浏览器不同,它不评估javascript。 您正在查找的具有
balancedHeadline
类的元素是 下载HTML文档中不存在。 当资产下载后,它们会被添加进来 javascript函数已经运行。 使用当前的技术,您将无法找到这样的类第二个问题的答案在文档中。 正则表达式或函数可以工作,但您可能会发现 传递list对于您的应用程序来说更简单
相关问题 更多 >
编程相关推荐