NLTK分词器和斯坦福CoreNLP分词器无法在句末的句号（.）后没有空格的情况下区分两个句子。

>>> nltk.word_tokenize(w1, 'english') ['I', 'am', 'Pusheen', 'the', 'cat.I', 'am', 'so', 'cute'] >>> nltk.word_tokenize(w2, 'english') ['I', 'am', 'Pusheen', 'the', 'cat', '.', 'I', 'am', 'so', 'cute']

1条回答

网友

1楼 · 发布于 2024-05-17 12:13:53

它是故意这样实现的一个句点后面没有空格通常并不表示一个句子的结束（想想像“版本4.3”，“例如”，“a.M.”等短语中的句点）。如果你有一个语料库，在这个语料库中，句号后面没有空格是很常见的，那么你必须在发送到NLTK之前用正则表达式或类似的方法对文本进行预处理。在

一个好的经验法则可能是，通常一个小写字母后跟一个句点后接一个大写字母通常表示一个句子的结尾。在这种情况下，要在句点后插入空格，可以使用正则表达式，例如

import re
w1 = re.sub(r'([a-z])\.([A-Z])', r'\1. \2', w1)

编程相关推荐

在IE10中重新加载另一个帧时，internet explorer Java小程序失败/消失
ThreadLocal变量的java性能
java系统。出来println不是打印输出
java从JAXB类获取元素属性
java组织。天啊。科尔巴。包裹。InvalidName:IDL:omg。org/CORBA/ORB/InvalidName:1.0
java有没有办法让非事务连接抛出异常？
java是否有任何方法可以使用JdbcTemplate和查询/条件Fluent API
javajpa级联类型。刷新不工作？
未考虑java Maven依赖关系管理
java MySQL MBR包含抛出MySQLExceptionError的语句

相关问题更多 >

编程相关推荐

热门问题

热门文章

NLTK分词器和斯坦福CoreNLP分词器无法在句末的句号（.）后没有空格的情况下区分两个句子。

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >