gensim Doc2Vec：从txt文件到TaggedDocuments

docLabels = [] docLabels = [f for f in listdir(“PATH TO YOU DOCUMENT FOLDER”) if f.endswith(‘.txt’)] data = [] for doc in docLabels: data.append(open(‘PATH TO YOU DOCUMENT FOLDER’ + doc).read()) `

1条回答

网友

1楼 · 发布于 2024-09-30 18:35:13

我只讨论标题所指的问题，关于Doc2Vec和{}。（NLTK是另一个问题。）

TaggedDocument类要求为创建的每个对象指定words和{}。在

因此，如果您当前只是在data上附加一个文件的大的完整读取，那么您将希望：

把这些数据分解成单词——一个超级简单的方法就是在空白处加.split()它，尽管大多数项目做的更多
决定一个或多个标记，也许只是文件名本身
实例化一个TaggedDocument，并将其附加到data

因此，您可以将现有循环替换为：

for doc in docLabels:
    words = open(open(‘PATH TO YOU DOCUMENT FOLDER’ + doc).read()).split()
    tags = [doc]
    data.append(TaggedDocument(words=words, tags=tags)

相关问题更多 >

编程相关推荐

热门问题

热门文章

gensim Doc2Vec：从txt文件到TaggedDocuments

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >