我试图使用Python中自然语言处理库中的gensim
模块。
文件上说要初始化模型:
from gensim.models import word2vec
model = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4)
输入语句需要什么格式?我有原始文本
"the quick brown fox jumps over the lazy dogs"
"Then a cop quizzed Mick Jagger's ex-wives briefly."
etc.
我还需要在word2fec
中进行哪些额外的处理?
更新:以下是我所做的尝试。当它加载句子时,我什么也得不到。
>>> sentences = ['the quick brown fox jumps over the lazy dogs',
"Then a cop quizzed Mick Jagger's ex-wives briefly."]
>>> x = word2vec.Word2Vec()
>>> x.build_vocab([s.encode('utf-8').split( ) for s in sentences])
>>> x.vocab
{}
A list of ^{} sentences 。您还可以从磁盘流式传输数据。
确保是
utf-8
,然后将其拆分:就像
alKid
指出的那样,使它成为utf-8
。谈论另外两件你可能需要担心的事情。
您可以执行以下操作,而不是将大列表加载到内存中:
然后
相关问题 更多 >
编程相关推荐