所以在nltk中,我们可以指定POS标记的regex来提取文本块
sentence = [("the", "DT"), ("little", "JJ"), ("yellow", "JJ"),
... ("dog", "NN"), ("barked", "VBD"), ("at", "IN"), ("the", "DT"), ("cat", "NN")]
grammar = "NP: {<DT>?<JJ>*<NN>}"
cp = nltk.RegexpParser(grammar)
result = cp.parse(sentence)
print(result)
(S
(NP the/DT little/JJ yellow/JJ dog/NN)
barked/VBD
at/IN
(NP the/DT cat/NN))
有没有可能用斯坦福nlp做这样的事情?我想做的是使用stanford POS标记器来标记我的文本,因为我发现它比nltk的标记器更准确。我想一旦我有了带标签的句子,我就可以使用上面的代码了。斯坦福NLP还提供一些现成的东西来创建文本块吗?在
另外,我知道nltk3提供斯坦福NLP支持。那么我如何将这两者结合起来得到大块的文本呢?我更喜欢用python来做这个。在
如果您知道要将模式视为块,可以使用TokensRegex对它们进行聚类。在
相关问题 更多 >
编程相关推荐