我试图通过使用外部词汇表来构建Gensim word2vec模型。我知道Gensim有一个内部词汇生成器,但是我对它们没有同样的控制。我的问题代码很简单。在
import gensim
from sklearn.feature_extraction.text import CountVectorizer
corpus = corpusCleaner(raw_corpus)
vocabularyGenerator = CountVectorizer(strip_accents="ascii", stop_words="english")
vocabularyGenerator.fit(corpus)
vocabulary = vocabularyGenerator.vocabulary_
model = gensim.models.Word2Vec()
model.build_vocab_from_freq(vocabulary)
我得到了 C: \Anaconda3\envs\workflow\lib\site packages\gensim\models\word2矢量:1235:RuntimeWarning:在int_标量中遇到溢出 retain_pct=retain_total*100/最大(原始_total,1)
目前没有回答
相关问题 更多 >
编程相关推荐