空间符号化撇号

def custom_tokenizer(nlp): prefix_re = compile_prefix_regex(nlp.Defaults.prefixes) suffix_re = compile_suffix_regex(nlp.Defaults.suffixes) infix_re = re.compile(r'''[.\,\?\:\;\...\‘\’\'\`\“\”\"\'~]''') return Tokenizer(nlp.vocab, prefix_search=prefix_re.search, suffix_search=suffix_re.search, infix_finditer=infix_re.finditer, token_match=None) nlp = spacy.load('nl_core_news_sm') nlp.tokenizer = custom_tokenizer(nlp)

1条回答

网友

1楼 · 发布于 2024-05-19 14:00:18

最近，spaCy有一项工作正在进行中，以修复荷兰语的这些词汇形式。今天的拉取请求中有更多信息：https://github.com/explosion/spaCy/pull/3409

更具体地说，nl/punctuation.py（https://github.com/explosion/spaCy/pull/3409/files#diff-84f02ed25ff9e44641672ca0ba5c1839）显示了如何通过改变后缀来解决这个问题：

编程相关推荐

尝试运行JFLAP。戴软呢帽的罐子23。Java正在抛出异常
无引用的java数组布尔复制
hibernate如何在java SE应用程序中使用JPA EntityManager
java如何使用ORMLite在SQLite中持久化JavaFX属性？
java无法将项目部署到GAE
java：谷歌地图维基百科层
java Resultset（getter/setter类）对象在第二次执行时未删除旧值
s中的java struts2：选择列表>请求的列表键“”作为集合/数组/映射/枚举/迭代器类型
java如何在Karaf 4.0.5中获得BaseDao中的entityManager？
java VSCode未从控制台读取西里尔文

相关问题更多 >

编程相关推荐

热门问题

热门文章