In [19]: for token in en_doc:
...: print(token.orth_, token.dep_, token.head.orth_, [t.orth_ for t in token.lefts], [t.orth_ for t in token.rights])
...:
(u'Hello', u'ROOT', u'Hello', [], [u',', u'world', u'.'])
(u',', u'punct', u'Hello', [], [])
(u'world', u'npadvmod', u'Hello', [], [])
...
有一个Github问题线程,用于将模型添加到新语言的管道中,或改进当前语言:
https://github.com/explosion/spaCy/issues/3056
据我所知,在最坏的情况下,您可能需要使用您自己的模型以spacy所需的格式标记数据;然后使用这个标记的数据来训练spacy中的模型。在
他们已经将spacy版本更新到spacy alphav2.0.0。在
您可以在这里查看新文档 Here
Spacy只需使用
en_nlp = spacy.load('en'); doc=en_nlp(sentence)
,就可以实现所有这些功能。documentation提供了有关如何访问每个元素的详细信息。在示例如下:
使用
^{pr2}$doc.sents
可以获得句子:名词块由
doc.noun_chunks
给出:Named entity由
doc.ents
给出:标记化:可以迭代doc以获取令牌。
token.orth_
给出令牌的str。在POS由
token.tag_
给出:柠檬化:
依赖关系分析。您可以使用}来遍历解析树。您可以编写一个函数来打印依赖项:
token.dep_
token.rights
或{有关更多详细信息,请参阅spacy文档。在
相关问题 更多 >
编程相关推荐