如何使用python中的StanfordNLP提取丹麦语中的名词短语?

2024-09-29 23:33:31 发布

您现在位置:Python中文网/ 问答频道 /正文

到目前为止,我使用了python中的stanfordnlp库,并对文本的数据帧进行了标记和POS标记。我现在想试着提取名词短语。我试过两种不同的方法,但都有问题:

  1. 据我所见,stanfordnlppython库似乎没有提供现成的NP分块,至少我还没有找到一种方法。我试着用词性标记对所有单词进行排序,然后检查名词是否重复。然而,这对我来说是非常粗糙和复杂的。

  2. 我已经能够使用nltk来处理英语文本,所以我也尝试在nltk中使用stanfordcorenlpapi。我在这方面的问题是,我需要一个丹麦模式时,设置科伦普与马文(这是我非常缺乏经验)。对于本文的问题1,我一直在使用丹麦模型found here。这似乎不是我被要求寻找的那种模式-再次,我不知道我现在在做什么,如果我在这里误解了什么,我道歉。

我的问题是(1)在python中是否可以在stanfordnlp中对NPs进行分块,(2)我是否可以以某种方式将带有POS标记的+标记化+词形化的单词从stanfordnlp解析为NLTK并在那里进行分块,或者(3)是否可以在丹麦语中设置CoreNLP,然后使用带有NLTK的CoreNLP api。在

谢谢,并为我在这里的不清楚道歉。在


Tags: 数据方法标记pos文本np模式单词
2条回答

一些有用的信息:

1.)据我所知,Stanford CoreNLP(Java)不支持丹麦语。我们没有丹麦人的支持,我也不知道有第三方有丹麦人的模型。因此,无论是Java代码还是服务器都没有多大帮助。虽然有可能某个地方有丹麦模特。我试着在谷歌上多做一点研究。在

2.)对于StanfordNLP(Python)代码库,我们确实支持标记化、词性、引理和依赖解析。现在我们还没有任何名词短语识别软件。我们不生成选区解析,所以我们不能在解析树中找到NP,这是一个依赖解析。我可以想象,有一些不错的技术可以基于依赖性分析或基于词性分块来提取名词短语。我们可以添加一些功能来帮助解决这个问题。虽然这样的技术一开始可能并不完美。但是ud2.0的精神是处理所有语言,所以这似乎是一个完美的例子,可以在ud2.0解析上编写通用名词短语提取规则,然后在Python包中支持的所有70多种语言上运行。在

从CoreNLP提取块的方法是使用constituency parser的输出。不过,正如你所知道的那样,你可以直接根据你的文本块列表来解析你的文本块列表。例如,对于像“I bought the book because I read good reviews about it.”这样的输入语句,方法的输出将如下所示:

<class 'list'>: 
[['NP', 'I'], 
['NP', 'the book'], 
['NP', 'I'], 
['NP', 'good reviews'],
['NP', 'it'], 
['SBAR', 'because I read good reviews about it'], 
['VP', 'bought the book because I read good reviews about it'], 
['VP', 'read good reviews about it']]

由于上面列出了一个测试的方法,所以我还没有把它写出来。在

如果你只需要名词短语,你也可以看看Spacy和解决方案here,这是相当快的。我所说的一切主要是关于你的第一个问题,部分是关于你的第二个问题,我不知道这些解决办法是否也适用于丹麦人。在

相关问题 更多 >

    热门问题