用NLTK和Python创建自定义分类语料库 - 问答 - Python中文网

用NLTK和Python创建自定义分类语料库

2024-09-27 07:32:09 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我遇到了一个与正则表达式和Python中的CategorizedPlaintextCorpusReader有关的问题。在

我想创建一个自定义的分类语料库，并在上面训练一个朴素的Bayes分类器。我的问题是：我想要两种类型，“pos”和“neg”。正文件都在一个目录中，main_dir/pos/*.txt，而负文件在一个单独的目录main_dir/neg/*.txt。在

我如何使用CategorizedPlaintextCorpusReader加载并标记pos目录中的所有正文件，并对负文件执行相同的操作？在

注意：设置与Movie_reviews语料库（~nltk_data\corpora\movie_reviews）完全相同。在

Tags：文件标记 pos 目录 txt 类型分类器 main

1条回答

网友

1楼 · 发布于 2024-09-27 07:32:09

这就是我的答案。因为我在考虑用两个案例，所以我认为最好同时涵盖两个案例，以防将来有人需要答案。如果你有相同的设置电影审查语料库-多个文件夹，以相同的方式你希望你的标签被调用，并包含培训数据，你可以使用这个。在

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'(\w+)/*')

我正在考虑的另一种方法是将所有内容放在一个文件夹中，并将文件命名为0_阴性.txt，0_位置文本，1_阴性.txt等等。读者的代码应该类似于：

^{pr2}$

我希望这对将来的人有帮助。在

相关问题更多 >

编程相关推荐

热门问题

热门文章