句子边界检测

splitta的Python项目详细描述


概述

请考虑以下文本:

"1月20日,美国前参议员奥巴马成为 数百万美国人参加了就职典礼。"

句点可能不明确,表示 句子,缩写,或两者兼有。句子边界检测 (sbd)任务包括消除时段的歧义,特别是, 是否将每个句点归为句末。在这个例子中, 只有美国结束时的时段才应分类为:

"1月20日,美国前参议员奥巴马成为 数百万美国人参加了就职典礼。"

如果您使用的是sbd系统,它的错误率可能是 1%-3%的英文新闻稿。这里描述的系统实现了 《华尔街日报》语料库中最著名的错误率:0.25%和 布朗语料库(混合体裁)和其他测试的可比错误率 语料库

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
IE中的java跨域cookie问题   重复java中已经满足的循环   编译java RMI服务器时出错   JavaServlet POST中作为参数传递的javascript大型JSON数组数据为空   java片段未每次刷新/调用   java无法编译。错误消息   java如何构造大型类?   java Hibernate:TableThingsDB。事情并不存在   java如何操作从匹配项创建的数组。发现   循环以搜索和显示数组Java的某些部分   加载或注册SQLite JDBC驱动程序时出现java问题   活动和服务之间的java连接   JavaGWTG2D:ie8中的drawImage   java在安卓中设置hessian阈值   在Tomcat中使用Logback时发生java错误