快速爬网Web图像源或图像URL列表文件

crawl-image的Python项目详细描述


# crawl_image

## Introduction - 多线程快速抓取网页所有图片资源到指定路径。 - 原理是抓取img标签的src,再整合域名成资源完整url,分发到程序线程去下载。

## Example

from crawl_image.run_factory import run_for_url_list run_for_url_list(‘C:/Users/xh/Desktop/url/url.txt’, img_save_path=’D:/crawl/image/real’, do_last_url_file_name=True)

## Features - 高速下载 - 抓取所有图片 - 自解网页编码 - 过滤图片类型 - 重构使用class交互,并建立run_factory,提供运行工厂,简化程序调用流程。 - 增加url列表文件爬取功能。 - 去重url数组。 - 使用url最后以’/’符号结束的字符串作为图片名称,以便检查重复下载的情况。

## Communication - 未来已来 203737026

## Copyright and License code for everything

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java楼梯的最大高度   java Jackson从1.7.1更新到2.8.6 JsonTypeInfo子类型反序列化   Spring WebApp中的java JPA异常处理   java在SwingWorker(doInBackground)中从WorkerThread调用多个方法?   java Android Studio构建到jar   java是添加多个按钮组的更有效方法   java MySQL JDBC连接池最大大小   java如何防止元素<Integer>变成元素<Object>   Java:处理大型XML文件提取数据而不编写状态自动机?   SpringBoot和React Web应用程序中CAS的java重定向问题   需要java算法方面的帮助吗   java在JDK 16中使用PowerMock   java异常错误本机方法签名   在Java Android中将JSON映射到数组/对象   如何打开一个窗口。java程序中的dat文件   java应用程序引擎+Maven+热插拔   java Moxy的getValueByXPath为除根元素以外的所有元素返回null