对文档列表进行分类

2024-10-02 06:26:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试检索多个目录中的文档并对它们进行分类。NLTK book显示了在电影评论语料库中对两个文件夹中的文件进行分类的示例,“pos”和“neg”:

from nltk.corpus import movie_reviews
documents = [(list(movie_reviews.words(fileid)), category)
              for category in movie_reviews.categories()
              for fileid in movie_reviews.fileids(category)]

我尝试对同一目录中的几个文件夹执行类似操作:

reviews= "C:\Users\Alpine\Documents\Reviews" #Folders: Good, Bad
documents = [(list(reviews.words(fileid)), category)
              for category in reviews.categories()
              for fileid in reviews.fileids(category)]

但是我在for category in reviews.categories()得到Attribute Error: 'str' object has no attribute 'categories'。你知道吗

这个方法是nltk语料库中的文件专用的吗?有别的选择吗?你知道吗


Tags: 文件in目录文件夹for分类moviedocuments
1条回答
网友
1楼 · 发布于 2024-10-02 06:26:01

问题在于混淆movie_reviewsreviews

movie_review通过从nltk.corpus导入来定义,并且具有方法words。你知道吗

reviews是一个变量,您为它分配了一个字符串。而且字符串没有方法words,正如错误消息告诉您的那样。你知道吗

相关问题 更多 >

    热门问题