我正在从《纽约时报》的网站上抓取元数据。我希望收集三条信息:
我已经成功地收集了所有三个,除了《纽约时报》主页在主页上显示文章图像的情况。在这种情况下,我尝试捕捉主页缩略图,但没有成功。以下是我目前的代码:
for item in soup.select('.story-wrapper'):
try:
headline = item.find('h3').get_text()
link = item.find('a')['href']
image = item.select('.css-hdqqnp')
css选择器.css-hdqqnp
引用纽约时报主页上显示的文章图像的缩略图类(而不仅仅是文本)
如果一篇文章的缩略图已经显示在主页上,而不是只显示在文章页面上(我已经成功地收集到了),我如何才能获得该文章的缩略图
问题是HTML结构不正确
也就是说,图像不在节标记内。相反,它位于节的祖父母标记的下一个兄弟标记内。因此,您可以像这样搜索图像缩略图:
相关问题 更多 >
编程相关推荐