Python OpenNLP包装器–标记器停止在\n

import opennlp import nltk token = opennlp.OpenNLP("/Users/sven/apache-opennlp-1.6.0", "TokenizerME", "en-token.bin") pos = opennlp.OpenNLP("/Users/sven/apache-opennlp-1.6.0", "POSTagger", "en-pos-maxent.bin") def pipeline(start_with, str): if start_with == "token": return pos.parse(token.parse(str).decode('utf-8')).decode('utf-8') elif start_with == "pos": return pos.parse(str).decode('utf-8') else: str = '\n'.join(nltk.sent_tokenize(str)) return pos.parse(token.parse(str).decode('utf-8')).decode('utf-8')

1条回答

网友

1楼 · 发布于 2024-09-27 09:34:48

Any Idea why this happens

来自OpenNLP docs：

The parser expect a whitespace tokenized sentence.

句子检测器命令行工具的输出是每行一个句子。语句检测器API的输出是一个字符串数组，每个字符串一个句子，这更加合理。

要解析每个句子，不要串联，只需循环。

编程相关推荐

java将属性文件中的值加载到jsp中，而无需在jsp页面中使用scriplets
java在Android应用程序中使用远程microsoft access数据库
jpa java。木卫一。IOException：尝试在其他pc上运行带有嵌入式javadb的JavaFX应用程序时，设备未准备就绪
Java中参数个数可变的arraylist构造函数
java在大小写中产生字母交替的句子
Java在ArrayList中添加2个对象
使用xpath（Java）无法识别Else
lombok生成equals/hashCode实现，但不调用超类，即使该类不扩展java。lang.对象
java命令链接操作在数据表的标头方面不起作用
java如何获取一个数字进行闪烁，然后以相同的闪烁时间移动到一个新位置？

相关问题更多 >

编程相关推荐

热门问题

热门文章