我正在尝试检索多个目录中的文档并对它们进行分类。NLTK book显示了在电影评论语料库中对两个文件夹中的文件进行分类的示例,“pos”和“neg”:
from nltk.corpus import movie_reviews
documents = [(list(movie_reviews.words(fileid)), category)
for category in movie_reviews.categories()
for fileid in movie_reviews.fileids(category)]
我尝试对同一目录中的几个文件夹执行类似操作:
reviews= "C:\Users\Alpine\Documents\Reviews" #Folders: Good, Bad
documents = [(list(reviews.words(fileid)), category)
for category in reviews.categories()
for fileid in reviews.fileids(category)]
但是我在for category in reviews.categories()
得到Attribute Error: 'str' object has no attribute 'categories'
。你知道吗
这个方法是nltk语料库中的文件专用的吗?有别的选择吗?你知道吗
问题在于混淆
movie_reviews
和reviews
movie_review
通过从nltk.corpus
导入来定义,并且具有方法words
。你知道吗reviews
是一个变量,您为它分配了一个字符串。而且字符串没有方法words
,正如错误消息告诉您的那样。你知道吗相关问题 更多 >
编程相关推荐