我想从给定的网站Lin下载许多文件扩展名相同的Wget或Python文件

import requests from bs4 import BeautifulSoup import wget def download_links(url): source_code = requests.get(url) plain_text = source_code.text soup = BeautifulSoup(plain_text, "html.parser") for link in soup.findAll('a'): href = link.get('href') print(href) wget.download(href) download_links('http://web.archive.org/web/20041225023002/http://www.projectai.com:80/libraries/acfiles.php?cat=6')

1条回答

网友

1楼 · 发布于 2024-09-29 16:23:38

更新：尝试此更新，现在应该从第一页的所有链接下载所有zip文件：

from bs4 import BeautifulSoup
import requests, zipfile, io

def get_zips(zips_page):
    # print(zips_page)
    zips_source = requests.get(zips_page).text
    zip_soup = BeautifulSoup(zips_source, "html.parser")
    for zip_file in zip_soup.select("a[href*=download.php?fileid=]"):
        zip_url = link_root + zip_file['href']
        print('downloading', zip_file.text, '...',)
        r = requests.get(zip_url)
        with open(zip_file.text, 'wb') as zipFile:
            zipFile.write(r.content)


def download_links(root, cat):
    url = ''.join([root, cat])
    source_code = requests.get(url)
    plain_text = source_code.text
    soup = BeautifulSoup(plain_text, "html.parser")

    for zips_suffix in soup.select("a[href*=repaints.php?ac=]"):
        # get_zips(root, zips_suffix['href'])
        next_page = ''.join([root, zips_suffix['href']])
        get_zips(next_page)


link_root = 'http://web.archive.org/web/20041225023002/http://www.projectai.com:80/libraries/'

category = 'acfiles.php?cat=6'
download_links(link_root, category)

相关问题更多 >

编程相关推荐

热门问题

热门文章

我想从给定的网站Lin下载许多文件扩展名相同的Wget或Python文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >