我是python的初学者,我用这句话
reader = CategorizedPlaintextCorpusReader('~/CorpusMain/',
r'.*\.txt', cat_pattern=r'(\w+)/*')
在我的CorpusMain文件夹中,我还有三个文件夹用于分类。我需要分别访问每个类别中的每个文本文件内容,为每个类别构建一个包含文本文件作为元素的列表。。例如 category1=['textfile1 content','textfile2 content'…等] 我想使用我的阅读器来实现这一点,这意味着引用每个文件(fileids())并获取其阅读器.raw结果。。。你知道吗
我需要这个来反馈给我的CountVectorizer,为每个类别建立一个向量。。你知道吗
我建议使用
os.listdir
这样的方法,它将返回指定为其参数的路径的内容列表。你知道吗举个例子:
对于如下目录结构:
文本1.txt:
文本2.txt:
以下代码:
将生成如下列表:
希望有帮助。你知道吗
相关问题 更多 >
编程相关推荐