在PyCharm中使用请求和美化组后没有输出

2024-06-25 22:31:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从《纽约时报》网站上得到一些头条新闻。我有两个问题, 问题1: 这是我的代码,但我没有输出,有人知道我需要更改什么吗

import requests
from bs4 import BeautifulSoup

url = 'https://www.nytimes.com'
r = requests.get(url)
soup = BeautifulSoup(r.text, "html.parser")
a = soup.find_all(class_="balancedHeadline")
for story_heading in a:
    print(story_heading)

我的第二个问题: 由于HTML对于所有标题都不相同(例如,对于大标题和小标题有不同的类),我如何在代码中使用所有这些不同的类并将所有标题作为输出

提前谢谢


Tags: 代码fromhttpsimporturl标题网站www
1条回答
网友
1楼 · 发布于 2024-06-25 22:31:59

BeautifulSoup是一个健壮的解析库。 但是,与您的浏览器不同,它不评估javascript。 您正在查找的具有balancedHeadline类的元素是 下载HTML文档中不存在。 当资产下载后,它们会被添加进来 javascript函数已经运行。 使用当前的技术,您将无法找到这样的类

第二个问题的答案在文档中。 正则表达式或函数可以工作,但您可能会发现 传递list对于您的应用程序来说更简单

相关问题 更多 >