我想从页面中刮取元素,例如页面- https://www.aacr.org/?s=breast+cancer&search_type=global
标题的html标记包含一个html链接和附加的标题。当我运行代码时,它同时打印HTML(第一个位置)和标题(第二个位置/我想要的)
例如-打印返回->; <;a href=”https://www.aacr.org/patients-caregivers/cancer/breast-cancer/“title=“乳腺癌””>;乳腺癌
我只需要粗体字/第二个元素,有什么帮助吗? 这是我的密码-
import requests
import time
from bs4 import BeautifulSoup
import pandas as pd
productlinks = []
sam=[]
for x in range(1,3):
url=f'https://www.aacr.org/page/{x}/?s=breast+cancer&search_type=global'
r=requests.get(url)
soup=BeautifulSoup(r.content,'html.parser')
productlist=soup.find_all('div',class_='blog-content')
for item in productlist:
title=soup.find_all('h3')
print(title)
您必须再进行一次迭代,通过迭代每个标记来获得所需的内容(我保持了代码的完整性并添加了额外的循环,这样您就可以了解如何在一般情况下做到这一点,而不仅仅是针对这个特定的用例)
结果:
要获取
title
属性,只需将最后一个for loop
更改为:输出:
相关问题 更多 >
编程相关推荐