轻量级、快速和可扩展的文本语料库。

Corpora的Python项目详细描述


欢迎来到下士!
====
*语料库*是一个轻量级的、快速的、可扩展的语料库,能够存储带有附加键值标题的原始文本文档集合。它使用Berkeley DB(BSDDB3模块)进行索引管理,以保证速度和防弹性。文本存储模型是基于分块的、人类可读的文本文件。这种结构可以轻松地扩展到数百万个文档,数百GB的集合。

corpora模块提供四个主要功能:
*创建新的语料库,
*将文档附加到语料库,
*使用其唯一的“id”随机访问语料库中的任何文档,
*对文档集合的顺序访问(生成器对集合的顺序访问)。

corpora只支持追加只读哲学,有关更多信息,请阅读doc:`motivation`.

…_山药:http://www.yaml.org/


quickstart
>

安装:


>
>>;sudo-pip-pip-install-corpora


基本用法:



>>>>>>;从corpora-import corpopus
>>;
>>>gt;>corpos.create('/tmp/test-cupus')
>>>>>;>c=corpus('/tmp/test/tmp/test-cupupupupus')
>;c=corgt;gt;c.add('first document',1)
>gt>gt>gt;c.add('first document',1)
>gt>gt;c.save_index()
>>;lt;len(c)
>2
>>;c[1]
({'id''1},u'first document')
>;c[2]
({'id''id''2},u'second document 2},u'first document')
>>>gt;c:
>>>>>gt;c.save保存索引(
>>>>>>>>>;
;c;c;
…打印t

({'id':1},u'first document')
({'id':2},u'second document')

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java NIO选择器最多只能选择50个SelectionKeys?   java阻止ImageButton创建新活动   为什么Java方法“Arrays.copyOf”处理中的整数数组与处理对象数组时的行为不同   java将安卓 1.6日历字段提取到vcal   将字符串转换为双精度后的java问题   java使用Webflux,是否可以使用AOP获取用于日志记录的ServerHttpRequest   java与jTextArea的基本区别是什么。setText()和jTextArea。append()方法?   java程序执行时间|将值保存到文件或数据结构?   java如何将表示字符的整数转换为字符串?   Java LWJGL新的渲染问题windows   java GUI提供异常   java创建第二个对象使类的函数不再工作   如何在java中将000验证为3位数字?   java bigO算法的时间复杂度,可以在不重复的情况下找到最长的子串   在30像素内点击按钮后,java在两个图像之间转换   java eclipse maven nexus不可解父pom   当存在其他SecurityConstraint时,java TransportGuary机密将被忽略   重新连接后激发的java Red5客户端流断开事件   javafx聊天应用程序中连接客户端的java问题