通过文本文件(压缩文件、文本文件、联机文件)提供一个慢速迭代器,每次迭代返回一个句子。

osplo的Python项目详细描述


osplo:onesentenceperlineopener
==
==
==许多计算机语言过程受益于每行一个句子的文本格式(例如,为文档术语矩阵创建精简的scipy矩阵,或者简单地按照gensim的输入格式进行文本计算。



-通常情况下不是这样,而且在许多情况下,读取完整的正文太密集,无法执行标记化和句子映射。



-osplo是解决此问题最简单的解决方案。
(您还可以使用它打开压缩的存档文件和Web资源)返回并使用非常好的标记器和短语拆分器somajo。
最终结果不是很快,但允许在文件上直接迭代,就好像它是每行一句话的格式一样,without having to read the file at the same time.<
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<>>>>>>>>>>>>>>
GNU GENERAL PUBLIC LICENSE Version 3,2007年6月29日版权所有(c)2007自由软件基金会<;https://fsf.org/>;允许所有人复制和分发本许可证文档的逐字副本,
序言GNU通用公共许可证是免费的软件和其他类型作品的版权许可证。
大多数软件和其他实用作品的许可证旨在剥夺您共享和更改作品的自由
GNU通用公共许可证旨在保证您共享和更改程序的所有版本的自由,以确保它对所有用户仍然是免费软件
我们,自由软件基金会当我们谈到自由软件时,我们指的是自由,而不是价格
我们的通用公共许可证旨在确保您有分发自由软件副本的自由(并对其收费)。如果你愿意的话),你可以接收源代码,或者如果你想得到它,你可以修改软件或者在新的免费程序中使用它的一部分,并且你知道你可以做这些事情来保护你的权利,我们需要防止其他人拒绝你这些权利或者要求你放弃这些权利。如果您分发软件的副本,或者如果您对其进行了修改,则应承担一定的责任:尊重他人自由的责任
例如
如果您分发此类程序的副本,无论是免费的还是收费的
您必须将您获得的相同自由传递给收件人
您必须确保它们







注意:
该软件根据GPL3.0获得许可,但仅是用于打包的演示项目。






欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Jgit对于给定的存储库,我们如何确定新提交的列表,以及每个提交来自哪个分支?   从MS Access数据库添加java ComboBoxItem   如何禁止Java列表中不同类的实例?   java在没有Web的JAXR上使用Shiro过滤器。xml   由于java原因,无法在Ubuntu上安装Netbeans 8.2。awt。未找到恐怖和辅助技术   java JUnit对RuntimeException的处理(特别是)   java空集合在Apache CXF服务(JAXWS)中被转换为null   java CannotAcquireLockException问题   sql如何在数据库中对(Java)枚举建模(使用SQL92)   安卓在Java中获取友好url后面的文件名   java如何访问数组名以获取列表?   javascript Java Nashorn longBitsToDouble   java控制台<init>错误   java将一个LinkedList追加/连接到另一个LinkedList的最有效方式是什么?   Java for正在跳过的循环   java帮助创建带有动画的复杂Swing GUI   java Android编辑文本。setHint在片段中不工作