django应用程序,用于按照用户定义的说明收集联机内容

django-scraper的Python项目详细描述


https://travis-ci.org/zniper/django-scraper.svg?branch=masterhttps://coveralls.io/repos/zniper/django-scraper/badge.svg?branch=master

django scraper是一个django应用程序,用于按照用户定义的说明收集联机内容

功能

  • 提取给定在线网站/页面的内容并存储在json数据下
  • 然后爬网以给定深度提取多个页面中的内容。
  • 可以下载第页中的媒体文件
  • 有在zip文件下存储数据的选项
  • 支持标准文件系统和AWS S3存储
  • 针对不同情况的可自定义爬网请求
  • 进程可以从django管理命令(~cron job)或使用python代码启动
  • 支持在同一页中提取多个内容(文本、HTML、图像、二进制文件)
  • 有内容优化(替换)规则和黑字过滤
  • 支持自定义代理服务器和用户代理

支持django 1.6、1.7和1.8

样品

下面是刮削https://news.ycombinator.com/ask

https://dl.dropboxusercontent.com/u/44239448/scraper-screen.jpg

安装

此应用程序需要先安装一些其他工具:

lxml
requests

django scraper安装可以使用pip

pip install django-scraper

有关配置或使用的更多和最新信息,请访问github中的存储库:https://github.com/zniper/django-scraper

支架

如果您对此申请有任何疑问,请发送电子邮件至:me@zniper.net

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Android解析JSON数据显示重复结果   Java图像写入   java将JSON对象作为对象而不是字符串写入文件   java获取servlet中的选定下拉列表值   java PowerMockito 1.6.0验证Mockito扩展API中的私有最终重载方法   java将地图图像更改为节点和边   java如何更改IntelliJ IDEA方案和窗格主题?   如何在java中解析文本文件?   当我使用Selenium IDE时,java WebDriver无法找到WebElement,而同样的css在哪里工作良好   java Android无线遥控摄像机   Go、Java和C#中数组的最大长度是多少?   java Guava的@Subscribe事件总线可见性   java如何将带有服务调用的循环重构为流?   java如何处理自定义Hamcrest匹配器中的异常?   java在Android中保存GUI状态   基于时间戳的java检索卡夫卡主题中的偏移量   图像构造函数中的java差异   java RxAndroidBle如何从多个服务读取通知?