允许您在弹性搜索中存储多个废弃项的废弃管道。
ScrapyElasticSearch的Python项目详细描述
说明
===
scrapy pipeline,允许您在弹性搜索中存储scrapy项。
install
==
::
如果您需要对ntlm的支持:
pip install“scrapyelasticsearch[extras]
用法(配置settings.py:)
----
:
item撸pipelines={
“scrapy elasticsearch.scrapyelasticsearch.elasticsearchpipeline”:500
}
elasticsearch撸index='scrapy'
elasticsearch撸index撸date format='%y-%m'
elasticsearch撸type='items'
elasticsearch_uniq廑key='url'廑自定义uniqe key
廑如果需要组合键,也可以接受字段列表
elasticsearch廑uniq廑key=['url','id']
示例:
-['http://username:password@elasticsearch.example.com:9200']
-['http://elasticsearch.example.com:9200']
-'https://elasticsearch.example.com:9200'
elastic search_index-elasticsearch index
elasticsearch_index_date_format-索引的日期后缀格式,格式见python datetime.strftime。默认值为无日期后缀。
elastic search_type-弹性搜索类型
elasticsearch_uniq_key-可选字段,字符串中的唯一键(必须是模型中声明的字段或列表,请参阅items.py)
elasticsearch_buffer_length-可选字段,每次批量插入到elasticsearch期间要处理的项目数。默认大小为500。
elasticsearch_auth-可选字段,设置为“ntlm”以使用ntlm身份验证
elasticsearch_username-可选字段,设置为“domain\username”,仅用于nltm身份验证
elasticsearch_password-可选字段,设置为“password”,仅与NLTM身份验证一起使用
elasticsearch-ca-如果ES服务器需要自定义CA文件,则可选择对其进行设置。
示例:
elasticsearch-ca={
'ca-cert':'/path/to/cacert.pem',
'client-cert':'/path/to/client-cert.pem',
‘客户端密钥':'/path/to/CLIENT-KEY.pem'
>
这里是一个示例应用(dirbot https://github.com/jayzeng/dirbot),以防您仍然困惑。
依赖关系
======
=====
>请参见requirements.txt
===
==0.9:接受自定义CA证书连接到es集群
*0.0.0.0.0:接受自定义CA证书连接到es集群
<0.0.8:添加支持ntlm身份验证
*0.7.1:为索引名添加了日期格式,并修复了一个小错误
-elasticsearch_buffer_length_默认值为9999,已将其更改为反映文档。
*0.7:引入了许多向后不兼容的更改:
-已将ElasticSearch服务器更改为ElasticSearch服务器
-ElasticSearch服务器接受字符串或列表
-已删除ElasticSearch端口,可以在URL中指定它
-ElasticSearch用户名并删除ElasticSearch的密码。您可以使用以下格式ELASTICSEARCH_SERVERS=['http://username:password@host:port']
-已更改的scrapy.log to logging as scrapy现在使用日志模块
*0.6.1:能够从蜘蛛中提取配置(除了读取配置文件之外)
*0.6:Bug fix
*0.5:Abilit to persistent object指定日志记录级别的选项
*0.4:删除调试
*0.3:验证支持
*0.2:scrapy 0.18支持
*0.1:初始版本
问题
===
如果发现任何错误或有任何问题,请向“问题”报告(https://github.com/knockrentals/scrapy elasticsearch/issues)
Contributors
==
*Jay Zeng(维护者)(https://github.com/jayzeng)
*Michael Malocha(https://github.com/mjm159)
*Ignacio Vazquez(https://git网络/ignacivovazquez)
*朱利安杜波塞勒(https://github.com/noplay)
*周杰斯图尔特(https://github.com/solidground)
*阿莱西奥西马雷利(https://github.com/jenkin)
*道格帕克(https://github.com/dougiep16)
*让塞巴斯蒂安格尔瓦伊斯(https://github.com/jsgervais)
>特许
======
2014年版权所有2014年版权所有。迈克尔malocha
扩展了julien duponchelle
2.0版apache许可下的工作(“许可”);
除非符合许可证的要求,否则您不得使用此文件。
您可以在
http://www.apache.org/licenses/License-2.0
获取许可证副本,除非适用法律要求或书面同意,否则根据许可证分发的软件
按“原样”分发,
无任何保证或条件任何形式的,无论是明示的还是暗示的。
请参阅许可证,了解控制许可的特定语言以及许可证下的限制。
===
scrapy pipeline,允许您在弹性搜索中存储scrapy项。
install
==
::
如果您需要对ntlm的支持:
pip install“scrapyelasticsearch[extras]
用法(配置settings.py:)
----
:
item撸pipelines={
“scrapy elasticsearch.scrapyelasticsearch.elasticsearchpipeline”:500
}
elasticsearch撸index撸date format='%y-%m'
elasticsearch撸type='items'
elasticsearch_uniq廑key='url'廑自定义uniqe key
廑如果需要组合键,也可以接受字段列表
elasticsearch廑uniq廑key=['url','id']
-['http://username:password@elasticsearch.example.com:9200']
-['http://elasticsearch.example.com:9200']
-'https://elasticsearch.example.com:9200'
elastic search_index-elasticsearch index
elasticsearch_index_date_format-索引的日期后缀格式,格式见python datetime.strftime。默认值为无日期后缀。
elastic search_type-弹性搜索类型
elasticsearch_uniq_key-可选字段,字符串中的唯一键(必须是模型中声明的字段或列表,请参阅items.py)
elasticsearch_buffer_length-可选字段,每次批量插入到elasticsearch期间要处理的项目数。默认大小为500。
elasticsearch_auth-可选字段,设置为“ntlm”以使用ntlm身份验证
elasticsearch_username-可选字段,设置为“domain\username”,仅用于nltm身份验证
elasticsearch_password-可选字段,设置为“password”,仅与NLTM身份验证一起使用
elasticsearch-ca-如果ES服务器需要自定义CA文件,则可选择对其进行设置。
示例:
elasticsearch-ca={
'ca-cert':'/path/to/cacert.pem',
'client-cert':'/path/to/client-cert.pem',
‘客户端密钥':'/path/to/CLIENT-KEY.pem'
>
这里是一个示例应用(dirbot https://github.com/jayzeng/dirbot),以防您仍然困惑。
依赖关系
======
=====
>请参见requirements.txt
===
==0.9:接受自定义CA证书连接到es集群
*0.0.0.0.0:接受自定义CA证书连接到es集群
<0.0.8:添加支持ntlm身份验证
*0.7.1:为索引名添加了日期格式,并修复了一个小错误
-elasticsearch_buffer_length_默认值为9999,已将其更改为反映文档。
*0.7:引入了许多向后不兼容的更改:
-已将ElasticSearch服务器更改为ElasticSearch服务器
-ElasticSearch服务器接受字符串或列表
-已删除ElasticSearch端口,可以在URL中指定它
-ElasticSearch用户名并删除ElasticSearch的密码。您可以使用以下格式ELASTICSEARCH_SERVERS=['http://username:password@host:port']
-已更改的scrapy.log to logging as scrapy现在使用日志模块
*0.6.1:能够从蜘蛛中提取配置(除了读取配置文件之外)
*0.6:Bug fix
*0.5:Abilit to persistent object指定日志记录级别的选项
*0.4:删除调试
*0.3:验证支持
*0.2:scrapy 0.18支持
*0.1:初始版本
问题
===
如果发现任何错误或有任何问题,请向“问题”报告(https://github.com/knockrentals/scrapy elasticsearch/issues)
Contributors
==
*Jay Zeng(维护者)(https://github.com/jayzeng)
*Michael Malocha(https://github.com/mjm159)
*Ignacio Vazquez(https://git网络/ignacivovazquez)
*朱利安杜波塞勒(https://github.com/noplay)
*周杰斯图尔特(https://github.com/solidground)
*阿莱西奥西马雷利(https://github.com/jenkin)
*道格帕克(https://github.com/dougiep16)
*让塞巴斯蒂安格尔瓦伊斯(https://github.com/jsgervais)
>特许
======
2014年版权所有2014年版权所有。迈克尔malocha
扩展了julien duponchelle
2.0版apache许可下的工作(“许可”);
除非符合许可证的要求,否则您不得使用此文件。
您可以在
http://www.apache.org/licenses/License-2.0
获取许可证副本,除非适用法律要求或书面同意,否则根据许可证分发的软件
按“原样”分发,
无任何保证或条件任何形式的,无论是明示的还是暗示的。
请参阅许可证,了解控制许可的特定语言以及许可证下的限制。