nltk标记化和压缩

2024-05-18 17:42:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在用nltk标记文本,只是输入到wordpunct_标记器的句子。这将拆分收缩(例如“don't”到“don”+“”+“t”),但我想将它们作为一个单词保留。我正在改进我的方法以获得更精确的文本标记化,因此除了简单的标记化之外,我还需要深入研究nltk标记化模块。

我想这是很常见的,我希望从其他人那里得到反馈,他们可能之前已经处理过这个特殊的问题。

编辑:

是的,这是一个很普遍的问题,我知道

另外,作为nlp的新手,我需要担心宫缩吗?

编辑:

sexprotokenizer或TreeBankWordTokenizer似乎做了我现在正在寻找的事情。


Tags: 模块方法标记文本编辑nlp单词句子
3条回答

我以前在this project工作过NLTK。当我这样做时,我发现收缩是值得考虑的。

但是,我没有编写自定义标记器,我只是在POS标记之后处理它。

我想这不是你要找的答案,但我希望能有所帮助

因为压缩的数量非常少,一种方法是搜索并替换所有与之完全等价的压缩(例如:“不要”到“不要”),然后将更新后的句子输入wordpunct_标记器。

你使用哪种标记器取决于你下一步要做什么。正如inspectorG4dget所说,语音标签的某些部分处理分裂收缩,在这种情况下,分裂是一件好事。但也许这不是你想要的。要决定哪个标记器是最好的,请考虑下一步需要什么,然后将文本提交到http://text-processing.com/demo/tokenize/以查看每个NLTK标记器的行为。

相关问题 更多 >

    热门问题