OSError: [Errno 22] 无效参数：downloaded/misc/jquery.js?v=1.4.4

import os from urllib.request import urlretrieve from urllib.request import urlopen from bs4 import BeautifulSoup downloadDirectory = "downloaded" baseUrl = "http://pythonscraping.com" def getAbsoluteURL(baseUrl, source): if source.startswith("http://www."): url = "http://"+source[11:] elif source.startswith("http://"): url = source elif source.startswith("www."): url = source[4:] url = "http://"+source else: url = baseUrl+"/"+source if baseUrl not in url: return None return url def getDownloadPath(baseUrl, absoluteUrl, downloadDirectory): path = absoluteUrl.replace("www.", "") path = path.replace(baseUrl, "") path = downloadDirectory+path directory = os.path.dirname(path) if not os.path.exists(directory): os.makedirs(directory) return path html = urlopen("http://www.pythonscraping.com") bsObj = BeautifulSoup(html, "html.parser") downloadList = bsObj.findAll(src=True) for download in downloadList: fileUrl = getAbsoluteURL(baseUrl, download["src"]) if fileUrl is not None: print(fileUrl) urlretrieve(fileUrl, getDownloadPath(baseUrl, fileUrl, downloadDirectory))

2条回答

网友

1楼 · 编辑于 2024-07-01 06:40:18

下载/杂项/jquery.js？v=1.4.4不是有效的文件名。我认为一个更好的解决方案是：

import requests
from bs4 import BeautifulSoup

download_directory = "downloaded"
base_url = "http://www.pythonscraping.com/"
# Use Requests instead urllib
def get_files_url(base_url):
    # Return a list of tag elements that contain src attrs
    html = requests.get(base_url)
    soup = BeautifulSoup(html.text, "lxml")
    return soup.find_all(src=True)

def get_file_name(url):
    # Return the last part after the last "/" as file name
    # Eg: return a.png as file name if url=http://pythonscraping.com/a.png
    # Remove characters not valid in file name
    file_name = url.split("/")[-1]
    remove_list = "?><\/:\"*|"
    for ch in remove_list:
        if ch in file_name:
            file_name = file_name.replace(ch, "")
    return download_directory + "/" + file_name

def get_formatted_url(url):
    if not url.startswith("http://"):
        return base_url + url
    elif base_url not in url:
        return None
    else:
        return url

links = get_files_url(base_url)

for link in links:
    url = link["src"]
    url = get_formatted_url(url)
    if url is None:
        continue
    print(url)
    result = requests.get(url, stream=True)
    file_name = get_file_name(url)
    print(file_name)
    with open(file_name, 'wb') as f:
        for chunk in result.iter_content(10):
            f.write(chunk)

网友

2楼 · 编辑于 2024-07-01 06:40:18

对于函数urlretrieve(url, filename, reporthook, data)，为filename参数提供的参数必须是操作系统上的有效文件名。在

在这种情况下，当你跑的时候

urlretrieve(fileUrl, getDownloadPath(baseUrl, fileUrl, downloadDirectory))

您为url提供的参数是“http://pythonscraping.com/misc/jquery.js?v=1.4.4”，您为filename提供的参数是“download/misc”/jquery.js？v=1.4.4英寸。在

““jquery.js？v=1.4.4“我认为不是有效的文件名。在

解决方案：在getDownloadPath函数中，将return path更改为

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章