初学者。在
我有一个很大的.txt文件体,我想在上面训练Doc2Vec模型。但是,我无法以可用的方式将数据导入python。在
为了导入数据,我使用了:
docLabels = []
docLabels = [f for f in listdir(“PATH TO YOU DOCUMENT FOLDER”) if
f.endswith(‘.txt’)]
data = []
for doc in docLabels:
data.append(open(‘PATH TO YOU DOCUMENT FOLDER’ + doc).read()) `
然而,有了这个,我得到了一个“列表”,我不能再做进一步的工作了。TK或2TK文件在任何地方都无法找到。在
我们将不胜感激。谢谢您!在
我只讨论标题所指的问题,关于}。(NLTK是另一个问题。)
Doc2Vec
和{TaggedDocument
类要求为创建的每个对象指定words
和{因此,如果您当前只是在
data
上附加一个文件的大的完整读取,那么您将希望:.split()
它,尽管大多数项目做的更多TaggedDocument
,并将其附加到data
因此,您可以将现有循环替换为:
相关问题 更多 >
编程相关推荐