斯坦福NLP:如何获得大块

2024-06-28 20:51:18 发布

您现在位置:Python中文网/ 问答频道 /正文

所以在nltk中,我们可以指定POS标记的regex来提取文本块

sentence = [("the", "DT"), ("little", "JJ"), ("yellow", "JJ"), 
... ("dog", "NN"), ("barked", "VBD"), ("at", "IN"),  ("the", "DT"), ("cat", "NN")]

 grammar = "NP: {<DT>?<JJ>*<NN>}" 

 cp = nltk.RegexpParser(grammar) 
 result = cp.parse(sentence) 
 print(result) 
(S
  (NP the/DT little/JJ yellow/JJ dog/NN)
  barked/VBD
  at/IN
  (NP the/DT cat/NN)) 

有没有可能用斯坦福nlp做这样的事情?我想做的是使用stanford POS标记器来标记我的文本,因为我发现它比nltk的标记器更准确。我想一旦我有了带标签的句子,我就可以使用上面的代码了。斯坦福NLP还提供一些现成的东西来创建文本块吗?在

另外,我知道nltk3提供斯坦福NLP支持。那么我如何将这两者结合起来得到大块的文本呢?我更喜欢用python来做这个。在


Tags: the标记pos文本npdtnnsentence