使用Python中的mechanize库下载网页上具有多个扩展名的文件

1条回答

网友

1楼 · 发布于 2024-09-30 04:27:45

Browser.retrieve()返回一个元组，由文件名和远程服务器的头组成。然后可以使用Content-Type头来确定文件的MIME类型，并使用mimetypes模块来获取文件的适当扩展名。最后，重命名文件。你知道吗

import mechanize
import shutil
import os.path
import mimetypes

#url = 'http://stackoverflow.com'
url = 'http://heriverde.nimoz.pl/wp-content/uploads/pdf-sample.pdf'
br = mechanize.Browser()
filename, headers = br.retrieve(url)

dest_dir = os.path.expanduser('~/Desktop/Job Postings/Hirist/')
# Content-Type may include encoding, e.g. text/html; charset=utf-8
content_type = headers.get('Content-Type', '').split(';')[0]
extension = mimetypes.guess_extension(content_type)
if not extension:
    extension = '.dunno'

# `i` is assumed to be a counter
dest_filename = '{}{}'.format(i, extension)
shutil.move(filename, os.path.join(dest_dir, dest_filename))

编程相关推荐

netbeans在加载java库时遇到问题
用HashMap代替数据库进行java搜索
arraylist Java：我应该使用什么类型作为可调整大小的原语列表？
java无法访问Cloud Firestore子项的值
将Eclipse设置为在终止调试时自动切换到Java透视图
java JSP/Jquery组合框下拉列表，通过图像从数据库动态加载
java枚举会话属性
jdk1。7启动java应用程序
类如何创建适当的Java实例？
java如何在字段为空时中断

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用Python中的mechanize库下载网页上具有多个扩展名的文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >