python的死简单网络爬虫

creep的Python项目详细描述


[![PYPI版本](https://img.shields.io/PYPI/V/screegy.svg?style=flat)(https://pypi.python.org/pypi/screegy/)
[![PYPI下载](https://img.shields.io/PYPI/dm/screegy.svg?style=flat)(https://pypi.python.org/pypi/screegy/)


令人毛骨悚然的是,python的另一个web爬虫程序,它可以提供一种简单、轻松的方式来编写web爬虫程序。


python的示例用法
``python


mycrawler类(爬虫程序):
def process\u document(self,doc):
如果doc.status==200:
print'[%d]%s%(doc.status,doc.url)
对doc.text(页面内容)做点什么
其他:
pass

crawler=mycrawler()
crawler.set_follow_模式(crawler.f_同一主机)
crawler.crawler.add_url_过滤器('\.(jpg jpeg gif png js css swf swf)$')
crawler.crawler.crawler('http://www.www.www.exwww.www.www.www.com.example./')
```

安装
1。从pypi安装:
`pip install screegy`
2。Arch Linux用户可以在AUR上找到它,也可以使用[yaourt](https://wiki.arch linux.org/index.php/yaourt):
`yaourt-s python2-screwy git`

分叉
2.创建功能分支(`git checkout-b my new feature`)
3。提交更改(`git commit-am'add some feature`)
4.推到分支(`git push origin my new feature`)
5。创建新的拉取请求

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java JavaFX 11可编辑组合框引发IndexOutOfBoundsException   java选择数组中的数组元素   java我从来没有找到创建2D ArrayList的正确方法   java JPA查找orderById的顶部数据,并按字符串过滤Id   使用java在ejabberd中进行xmpp外部身份验证   从ajax调用向java传递点运算符   java如何使用ReadWriteLock   使用Spring控制器和jQueryAjax的java重定向   java使JFrame中的JPanel可滚动   java如何用多个。jar库?   java EditText在RecyclerView中失去了对滚动的关注   java为什么我们必须扩展Servlet或GenericServlet或HttpServlet来创建Servlet应用程序?如果不扩展,我们可以开发Servlet应用程序吗?   使用递归java查找数组中的最大值   具有不同字段数的html表单的java域传输对象   java文本视图扩展;不支持操作异常   java如何使用iText的HTMLWorker类将多语言HTML字符串呈现为PDF