我遇到了一个与正则表达式和Python中的CategorizedPlaintextCorpusReader
有关的问题。在
我想创建一个自定义的分类语料库,并在上面训练一个朴素的Bayes分类器。我的问题是:我想要两种类型,“pos”和“neg”。正文件都在一个目录中,main_dir/pos/*.txt
,而负文件在一个单独的目录main_dir/neg/*.txt
。在
我如何使用CategorizedPlaintextCorpusReader
加载并标记pos目录中的所有正文件,并对负文件执行相同的操作?在
注意:设置与Movie_reviews
语料库(~nltk_data\corpora\movie_reviews
)完全相同。在
这就是我的答案。 因为我在考虑用两个案例,所以我认为最好同时涵盖两个案例,以防将来有人需要答案。 如果你有相同的设置电影审查语料库-多个文件夹,以相同的方式你希望你的标签被调用,并包含培训数据,你可以使用这个。在
我正在考虑的另一种方法是将所有内容放在一个文件夹中,并将文件命名为0_阴性.txt,0_位置文本,1_阴性.txt等等。读者的代码应该类似于:
^{pr2}$我希望这对将来的人有帮助。在
相关问题 更多 >
编程相关推荐