如何优化和限制BeautifulSoup结果

http://coleccaoargonauta.blogspot.com/2011/09/1-perdidos-na-estratosfera.html http://coleccaoargonauta.blogspot.com/2011/09/n-2-o-estranho-mundo-de-kilsona.html http://coleccaoargonauta.blogspot.com/2011/09/n-3-ultima-cidade-da-terra.html http://coleccaoargonauta.blogspot.com/2011/09/n-4-nave-sideral.html http://coleccaoargonauta.blogspot.com/2011/09/n-5-o-universo-vivo.html

#intro r=requests.get(url) soup = BeautifulSoup(r.content, 'lxml') #select the first teo 'separator' divs separador = soup.select("div.separator")[:2] #we need a title for each page - for debugging and later used to rename images titulo = soup.find_all("h3", {"class": "post-title entry-title"})[0] m = titulo.string print (m) #the find all links loop for div in separador: imagens = div.find_all('a') for link in imagens: print (link['href'], '\n')

2-O Estranho Mundo de Kilsona.jpg http://3.bp.blogspot.com/-tAyl2wdRT1g/UPfbGczmv2I/AAAAAAAAB0M/mP71TRQIg3c/s1600/2+-+O+Estranho+Mundo+de+Kilsona.jpg http://4.bp.blogspot.com/-D0cUIP8PkEU/UPfbByjSuII/AAAAAAAAB0E/LP6kbIEJ_eI/s1600/Argonauta002.jpg http://3.bp.blogspot.com/-tAyl2wdRT1g/UPfbGczmv2I/AAAAAAAAB0M/mP71TRQIg3c/s1600/2+-+O+Estranho+Mundo+de+Kilsona.jpg

2-O Estranho Mundo de Kilsona.jpg http://4.bp.blogspot.com/-D0cUIP8PkEU/UPfbByjSuII/AAAAAAAAB0E/LP6kbIEJ_eI/s1600/Argonauta002.jpg http://3.bp.blogspot.com/-tAyl2wdRT1g/UPfbGczmv2I/AAAAAAAAB0M/mP71TRQIg3c/s1600/2+-+O+Estranho+Mundo+de+Kilsona.jpg

2条回答

网友

1楼 · 编辑于 2024-06-01 10:14:51

您可以使用CSS选择器使用类分隔符（link to docs）直接从div提取图像

我还使用list comprehension代替for循环

下面是列表中url的工作示例


import requests
from bs4 import BeautifulSoup

#intro
url = "http://coleccaoargonauta.blogspot.com/2011/09/1-perdidos-na-estratosfera.html"
r=requests.get(url)
soup = BeautifulSoup(r.content, 'lxml')


#we need a title for each page - for debugging and later used to rename images      
titulo = soup.find_all("h3", {"class": "post-title entry-title"})[0]
m = titulo.string
print (m)

#find all links
links = [link['href'] for link in soup.select('.separator a')]
print(links)

网友

2楼 · 编辑于 2024-06-01 10:14:51

问题是由于在循环中调用了行imagens = div.find_all('a')。这将创建一个list的lists。因此，我们需要找到一种方法，将它们扁平化为一个列表。我在下面用merged_list = [] [merged_list.extend(list) for list in imagens]行来做这件事

然后，我从这里创建一个只包含链接的新列表，然后通过使用set调用来删除该列表的重复数据（当您不需要重复数据时，set是一种有用的数据结构）。然后，我将其转换回list，然后返回到您的代码

import requests
from bs4 import BeautifulSoup

link1 = "http://coleccaoargonauta.blogspot.com/2011/09/1-perdidos-na-estratosfera.html"
link2 = "http://coleccaoargonauta.blogspot.com/2011/09/n-2-o-estranho-mundo-de-kilsona.html"
link3 = "http://coleccaoargonauta.blogspot.com/2011/09/n-3-ultima-cidade-da-terra.html"
link4 = "http://coleccaoargonauta.blogspot.com/2011/09/n-4-nave-sideral.html"
link5 = "http://coleccaoargonauta.blogspot.com/2011/09/n-5-o-universo-vivo.html"


#intro
r=requests.get(link2)
soup = BeautifulSoup(r.content, 'lxml')

#select the first teo 'separator' divs
separador = soup.select("div.separator")[:2]

#we need a title for each page - for debugging and later used to rename images      
titulo = soup.find_all("h3", {"class": "post-title entry-title"})[0]
m = titulo.string
print (m)

imagens = [div.find_all('a') for div in separador]
merged_list = []
[merged_list.extend(list) for list in imagens]
link_list = [link['href'] for link in merged_list]
deduped_list = list(set(link_list))
for link in deduped_list:
    print(link, '\n')

相关问题更多 >

编程相关推荐

热门问题

热门文章