nltk标记化和压缩

3条回答

网友

1楼 · 编辑于 2024-05-18 17:42:58

我以前在this project工作过NLTK。当我这样做时，我发现收缩是值得考虑的。

但是，我没有编写自定义标记器，我只是在POS标记之后处理它。

我想这不是你要找的答案，但我希望能有所帮助

网友

2楼 · 编辑于 2024-05-18 17:42:58

因为压缩的数量非常少，一种方法是搜索并替换所有与之完全等价的压缩（例如：“不要”到“不要”），然后将更新后的句子输入wordpunct_标记器。

网友

3楼 · 编辑于 2024-05-18 17:42:58

你使用哪种标记器取决于你下一步要做什么。正如inspectorG4dget所说，语音标签的某些部分处理分裂收缩，在这种情况下，分裂是一件好事。但也许这不是你想要的。要决定哪个标记器是最好的，请考虑下一步需要什么，然后将文本提交到http://text-processing.com/demo/tokenize/以查看每个NLTK标记器的行为。

相关问题更多 >

编程相关推荐

热门问题

热门文章

nltk标记化和压缩

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >