用NLTK和Python创建自定义分类语料库

2024-09-27 07:32:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我遇到了一个与正则表达式和Python中的CategorizedPlaintextCorpusReader有关的问题。在

我想创建一个自定义的分类语料库,并在上面训练一个朴素的Bayes分类器。我的问题是:我想要两种类型,“pos”和“neg”。正文件都在一个目录中,main_dir/pos/*.txt,而负文件在一个单独的目录main_dir/neg/*.txt。在

我如何使用CategorizedPlaintextCorpusReader加载并标记pos目录中的所有正文件,并对负文件执行相同的操作?在

注意:设置与Movie_reviews语料库(~nltk_data\corpora\movie_reviews)完全相同。在


Tags: 文件标记pos目录txt类型分类器main
1条回答
网友
1楼 · 发布于 2024-09-27 07:32:09

这就是我的答案。 因为我在考虑用两个案例,所以我认为最好同时涵盖两个案例,以防将来有人需要答案。 如果你有相同的设置电影审查语料库-多个文件夹,以相同的方式你希望你的标签被调用,并包含培训数据,你可以使用这个。在

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'(\w+)/*')

我正在考虑的另一种方法是将所有内容放在一个文件夹中,并将文件命名为0_阴性.txt,0_位置文本,1_阴性.txt等等。读者的代码应该类似于:

^{pr2}$

我希望这对将来的人有帮助。在

相关问题 更多 >

    热门问题