允许您在弹性搜索中存储多个废弃项的废弃管道。

ScrapyElasticSearch的Python项目详细描述


说明
===
scrapy pipeline,允许您在弹性搜索中存储scrapy项。


install
==
::



如果您需要对ntlm的支持:
pip install“scrapyelasticsearch[extras]

用法(配置settings.py:)
----


item撸pipelines={
“scrapy elasticsearch.scrapyelasticsearch.elasticsearchpipeline”:500
}

elasticsearch撸index='scrapy'
elasticsearch撸index撸date format='%y-%m'
elasticsearch撸type='items'
elasticsearch_uniq廑key='url'廑自定义uniqe key


廑如果需要组合键,也可以接受字段列表
elasticsearch廑uniq廑key=['url','id']

示例:
-['http://username:password@elasticsearch.example.com:9200']
-['http://elasticsearch.example.com:9200']
-'https://elasticsearch.example.com:9200'

elastic search_index-elasticsearch index
elasticsearch_index_date_format-索引的日期后缀格式,格式见python datetime.strftime。默认值为无日期后缀。
elastic search_type-弹性搜索类型
elasticsearch_uniq_key-可选字段,字符串中的唯一键(必须是模型中声明的字段或列表,请参阅items.py)
elasticsearch_buffer_length-可选字段,每次批量插入到elasticsearch期间要处理的项目数。默认大小为500。
elasticsearch_auth-可选字段,设置为“ntlm”以使用ntlm身份验证
elasticsearch_username-可选字段,设置为“domain\username”,仅用于nltm身份验证
elasticsearch_password-可选字段,设置为“password”,仅与NLTM身份验证一起使用

elasticsearch-ca-如果ES服务器需要自定义CA文件,则可选择对其进行设置。
示例:
elasticsearch-ca={
'ca-cert':'/path/to/cacert.pem',
'client-cert':'/path/to/client-cert.pem',
‘客户端密钥':'/path/to/CLIENT-KEY.pem'
>







这里是一个示例应用(dirbot https://github.com/jayzeng/dirbot),以防您仍然困惑。



依赖关系
======
=====
>请参见requirements.txt




===
==0.9:接受自定义CA证书连接到es集群
*0.0.0.0.0:接受自定义CA证书连接到es集群


<0.0.8:添加支持ntlm身份验证
*0.7.1:为索引名添加了日期格式,并修复了一个小错误
-elasticsearch_buffer_length_默认值为9999,已将其更改为反映文档。

*0.7:引入了许多向后不兼容的更改:
-已将ElasticSearch服务器更改为ElasticSearch服务器
-ElasticSearch服务器接受字符串或列表
-已删除ElasticSearch端口,可以在URL中指定它
-ElasticSearch用户名并删除ElasticSearch的密码。您可以使用以下格式ELASTICSEARCH_SERVERS=['http://username:password@host:port']
-已更改的scrapy.log to logging as scrapy现在使用日志模块

*0.6.1:能够从蜘蛛中提取配置(除了读取配置文件之外)
*0.6:Bug fix
*0.5:Abilit to persistent object指定日志记录级别的选项
*0.4:删除调试
*0.3:验证支持
*0.2:scrapy 0.18支持
*0.1:初始版本


问题
===
如果发现任何错误或有任何问题,请向“问题”报告(https://github.com/knockrentals/scrapy elasticsearch/issues)


Contributors
==
*Jay Zeng(维护者)(https://github.com/jayzeng)
*Michael Malocha(https://github.com/mjm159)
*Ignacio Vazquez(https://git网络/ignacivovazquez)
*朱利安杜波塞勒(https://github.com/noplay)
*周杰斯图尔特(https://github.com/solidground)
*阿莱西奥西马雷利(https://github.com/jenkin)
*道格帕克(https://github.com/dougiep16)
*让塞巴斯蒂安格尔瓦伊斯(https://github.com/jsgervais)






>特许
======
2014年版权所有2014年版权所有。迈克尔malocha

扩展了julien duponchelle

2.0版apache许可下的工作(“许可”);
除非符合许可证的要求,否则您不得使用此文件。
您可以在


http://www.apache.org/licenses/License-2.0


获取许可证副本,除非适用法律要求或书面同意,否则根据许可证分发的软件
按“原样”分发,
无任何保证或条件任何形式的,无论是明示的还是暗示的。
请参阅许可证,了解控制许可的特定语言以及许可证下的限制。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
如何使用SeleniumWebDriver捕获特定元素的屏幕截图而不是整个页面?   WAS 8.5中的java JAXWS异步IO异常   java Android Studio无法解析数组适配器中的符号项   swing Java在运行时添加和删除按钮   java Spring Boot 2.0。x禁用特定配置文件的安全性   java这是我的最后一个代码,我在“if(Users[B].substring(0,1)==“1”){//Find String Cut Char Function”上遇到错误   单击菜单选项后打开“活动”时发生java错误   java Tic Tac Toe NullPointerException   java如何做数学题。随机进入for循环   java Http状态404错误处理spring mvc   java循环依赖双向@OneToMany JPA关系   java我可以在不重新启动项目的情况下添加servlet吗   java在蓝色/绿色部署中如何管理共享数据库?   这是一个系统。currentTimeMillis()是Java中时间性能的最佳度量?