画廊下载-支持许多画廊和reddit用户历史记录
gallery_get的Python项目详细描述
图库获取(和reddit获取)下载整个图库
许多画廊很难从画廊下载所有图片。他们的图像链接经常重定向到查看页面而不是图像本身,这使得很难获取页面上的所有图像(即使是使用流行的浏览器插件)。为了解决这个问题,gallery_get打开重定向链接并从那里获取图像。
reddit_get获取给定reddit用户提交的所有imgur相册和图片。它依赖于画廊。
测试版本和库
平台,python版本:
- OSX(Python 2.7.2和3.5.1)
- Windows(Python 2.7.3和3.6.0)
多媒体资料插件:
- 4chan
- 爱乐共享
- fuskator
- gfycat
- 护目镜图像
- imagefap
- ImageVenue
- imgbox
- imgur(专辑和画廊)
- 色情中心(相册和单个视频)
- 摆振
- 视频
- Xhamster
- xvideos
通用插件适用于:
- alafoto.com
- 论坛.phun.org
- setsdb.org
- (更多)
安装
您可以在本地下载或安装:
pip install gallery_get
用法(命令行)
Gallery获取的语法:
python gallery_get.py python gallery_get.py [URL-OF-GALLERY] python gallery_get.py [URL-OF-GALLERY] [DEST]
reddit get的语法:
python reddit_get.py python reddit_get.py [REDDIT-USERNAME] python reddit_get.py [REDDIT-USERNAME] [DEST]
如果调用时没有参数,系统将提示您输入gallery url(用于gallery_get)或reddit user(用于reddit_get)。系统还将提示您输入一个目标目录,该目录将被记住为下次的默认目录。
如果跳过[dest],它将查找last_gallery_dest.txt的内容,返回到当前工作目录。
用法(python环境)
Gallery获取的语法:
import gallery_get gallery_get.run() gallery_get.run(URL) gallery_get.run(URL, DESTINATION)
reddit get的语法:
import reddit_get reddit_get.run() reddit_get.run(USER) reddit_get.run(USER, DESTINATION)
跳过参数将导致上述相同的相应行为。
注释
如果您在同一个URL /用户和目的地上运行GalRealIsGET或ReDITIGO不止一次,那么它将跳过已经存在的图像(除非大小已经改变)。这允许您进行增量更新。
Gallery_get附带了一些为特定站点定制的“插件”,以及一个通用的回退插件,可以在多个库上工作。请注意,库将不时更改其标记,因此这些插件可能需要更新才能跟上这些更改。(这将带我们进入下一节…)
测试
我提供了一个名为gallery-get-test.py的测试套件,它将使用提供的url和用户运行gallery-get/reddit-get。选项如下:
--noprompt don't prompt for extra galleries --input=INPUT_PATH input CSV for testing (same format as output)
input_path默认为gallery_get_test_input.csv(提供) 输出为gallery_get_test_output.csv
要将新库/用户添加到测试:
- 运行gallery_get_test.py
- 输入您的图库/用户
- 对其他库/用户重复步骤2
- 如果输出看起来正常,请将gallery_get_test_input.csv替换为gallery_get_test_output.csv
贡献
如果您熟悉正则表达式和/或python逻辑,可以随意添加自己的插件或进行更新!
每个插件使用字符串、正则表达式或函数重写以下内容。
- 标题
- 重定向链接
- 图像链接
- 是否使用站点中相同的文件名,或使用“001”、“002”等。
查看现有插件文件中的注释以获得更多细节。
许可证
根据麻省理工学院的许可证。