使用组和请求提取数据

import requests from bs4 import BeautifulSoup as soup import os res = requests.get('https://unsplash.com/s/photos/shiba') doggo_soup = soup(res.text,'html.parser') containers = doggo_soup.findAll('div',{'class','IEpfq'}) if not os.path.exists('shiba'): os.makedirs('shiba') os.chdir('shiba') index = 1 for container in containers: img_tag = container.img source = requests.get(img_tag) with open('shiba-'+str(index)+'jpg','wb') as output: output.write(source.content)

2条回答

网友

1楼 · 编辑于 2024-09-29 23:24:27

你的代码有几个问题，试试这个它对我有用。我添加了异常处理程序，以便在任何图像下载失败时继续该过程，而且您的代码不会在每次迭代时更新index计数器：

import requests
from bs4 import BeautifulSoup as soup
import os

res = requests.get('https://unsplash.com/s/photos/shiba')

doggo_soup = soup(res.text,'html.parser')

containers = doggo_soup.findAll('div',{'class','IEpfq'})

if not os.path.exists('shiba'):
    os.makedirs('shiba')

os.chdir('shiba')

index = 1

for container in containers:
    try:
        img_tag = container.img
        source = requests.get(img_tag.get('src'))
        with open('shiba-'+str(index)+'.jpg','wb') as output:
            output.write(source.content)
        index += 1
    except:
      pass

网友

2楼 · 编辑于 2024-09-29 23:24:27

这是一个稍有改动的代码。它为我下载了20张照片。你知道吗

import requests
from bs4 import BeautifulSoup as soup
import os

res = requests.get('https://unsplash.com/s/photos/shiba')

doggo_soup = soup(res.text,'html.parser')

containers = doggo_soup.find_all('div',class_='_2BSIe _3pmDG')


if not os.path.exists('shiba'):
    os.makedirs('shiba', exist_ok=True)

index = 1

for container in containers:
    imgUrl = container.find('a')['href']
    source = requests.get(imgUrl)
    imageFile = open(os.path.join('shiba', os.path.basename(str(index) + '.jpg')), 'wb')
    for chunk in source.iter_content(1000000):
        imageFile.write(chunk)
    imageFile.close()
    index +=1

相关问题更多 >

编程相关推荐

热门问题

热门文章