nltk文本分类使用自定义特征

2024-10-01 09:42:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个数据集如下:

featureDict = {identifier1: [[first 3-gram], [second 3-gram], ... [last 3-gram]],
               ...
               identifierN: [[first 3-gram], [second 3-gram], ... [last 3-gram]]}

另外,我对同一组文档有一个标签:

^{pr2}$

我想找出最合适的nltk容器,在这个容器中我可以在一个地方存储这些信息,并无缝地应用nltk分类器。在

另外,在我对这个数据集使用任何分类器之前,我还想在这个特性空间中使用tf-idf过滤器。在

参考资料和文件将很有帮助。在


Tags: 数据文档分类器地方标签容器firstgram