在spaCy
中,如何检测词干和词法化后单词是否是停止字?在
假定判决
s = "something good\nsomethings 2 bad"
在本例中,something
是一个停止字。显然(对我来说?)Something
和somethings
也是停止字,但它需要在前面加词干。下面的脚本会说第一个是真的,但后一个不是
退货:
something True
good False
"\n" False
Something False
2 False
somethings False
有没有一种方法可以通过spaCy
API来检测它?在
spaCy中的Stop单词只是一组字符串,它们在词汇表中与上下文无关的词条上设置了一个标志(see here表示英语停止列表)。该标志只检查},而“somethings”则不返回
text in STOP_WORDS
,这就是为什么“something”为is_stop
返回{但是,您可以检查令牌的引理或小写形式是否是停止列表的一部分,该列表可通过
nlp.Defaults.stop_words
获得(即,您所使用语言的默认值):如果您使用的是spacyv2.0,并且想要更优雅地解决这个问题,您还可以通过一个custom ^{} attribute extension 实现自己的
^{pr2}$is_stop
函数。您可以为您的属性选择任何名称,它将通过token._.
变得可用,例如token._.is_stop
:相关问题 更多 >
编程相关推荐