在Spacy中，如何匹配一个特定的实体类型，就在一个特定的单词之后，不管它们之间有什么关系？

matcher=Matcher(nlp.vocab) pattern = [{"REGEX" : "[D|d][é|e]nomination\s{0,}"},{"REGEX" : "[A-Za-z\n\r\s:)]{1,}"},{"ENT_TYPE" : "MISC"}] matcher.add('company_name', None, pattern) matches = matcher(doc)

1条回答

网友

1楼 · 发布于 2024-09-21 05:27:33

请记住以下几点：

模式中的每个dict对应于一个没有空格的标记。
您可以用{"OP": "*"}匹配任意数量的中间令牌。
使用validate=True和Matcher()来获得更多的反馈是很有用的。

我觉得你的模式可能更像：

pattern = [{"LOWER": {"REGEX" : "d[é|e]nomination"}}, {"OP": "*"}, {"ENT_TYPE": "MISC"}]

Matcher会查看整个文档，因此如果您有一个长文档，则不仅提供下一个MISC，还将提供一个匹配的“mination”，后面跟着每个MISC。你必须从结果中分别选择最短的匹配。在

编程相关推荐

java既然Lucene 4.1中不存在TermEnum，如何从IndexReader中获取字段？
java在LinkedHashSet上的迭代比在ArrayList上的迭代要快
java无法在Android Studio中获得所有@override函数，如onStart、onResume
java的DateTimeFormatter比SimpleDateFormat更严格吗？以毫秒为单位分析日期
JavaSpring*servlet。Websphere服务器启动时未加载xml
java Fancytree selenium单击事件
java日期格式不一样
java无法在Android Studio上运行我的MQTT应用程序
c#计算两个集合的F检验
java JDialog不会显示在“设计”选项卡中

相关问题更多 >

编程相关推荐

热门问题

热门文章

在Spacy中，如何匹配一个特定的实体类型，就在一个特定的单词之后，不管它们之间有什么关系？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >