基于python的分布式网络爬虫系统

fulmar的Python项目详细描述


……fulmar文档主文件,由
Sphinx Quickstart于2016年8月2日星期二14:19:45创建。
您可以完全根据自己的喜好调整此文件,但它至少应包含根“toctree”指令。


fulmar
==

fulmar是一个分布式爬虫系统。通过使用无阻塞网络I/O,
fulmar可以同时处理数百个打开的连接。您可以从网站中提取所需的数据。以一种快速、简单、可扩展的方式。



quick links
^^^^^^^^^^

*`source(github)<;https://github.com/tylderen/fulmar>;``u
*`wiki<;https://github.com/tylderen/fulmar/wiki/links>;`

代码示例
^^^^^^^^^^^^



这里有一个简单的示例:

import logging

callback=self.detail_page)

def detail_page(self,response):
尝试:
page_lxml=response.page_lxml
除了e:
logger.error(str(e))

返回{
“url”:response.url,
“title”:page_lxml.xpath('//title/text()')[0]}





项目名称:“百度蜘蛛”

最后,启动fulmar::


installation
----

**自动安装**::


fulmar列在“pypi<;http://pypi.python.org/pypi/fulmar>;`` uu和
可以用``pip``或``轻松安装``安装。请注意,
源代码发行版包括演示应用程序,在以这种方式安装Tornado时,这些应用程序不存在,因此您可能也希望下载源代码tarball的副本。

**手动安装**:下载tarball,然后:

。解析后的文字:


tar xvzf fulmar-fulmar-version;.tar.gz
cd fulmar-;
python setup.py build
sudo python setup.py install

fulmar源代码`托管在github
<;https://github.com/tylderen/fulmar>;` ` ` ` ` ` ` ` ` ` ` `<>
>
**先决条件**:fulmar在python 2.7上运行,在python2.7上运行;在python2.7上运行;在py我是说,强烈建议使用2.7.9版或更高版本来改进SSL支持。

目录树::
:最大深度:2


快速




*:ref:`genindex`
*:ref:`modindex`
*:ref:`search`

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
对来自asyn线程的信号使用静态布尔与原子布尔的java差异   雅加达ee为什么当我往树上推三个物体时,树上只能放一个物体?   Eclipse中项目设置中的java错误   java GWT在发送前在JSON中序列化POST参数   java将构造函数类与am主类相结合   单击字段顶部时,java JTextField插入符号在开始位置的定位   在企业Java/中。Net项目,每个开发人员的类路径中是否都有所有依赖项?   java Firebase向dabase添加数据   java com。微软sqlserver。jdbc。SQLServerException:索引8超出范围   java Why flyway的数据库驱动程序依赖项没有在maven的pom插件中声明。xml?   arraylist如何在java中根据用户输入对内存中匹配的行进行排序?   在Java中,如何将元素(元素、优先级)放在PriorityQueue中?   在Java中从一堆代码中提取方程