Gensim从freq overflow E构建

2024-05-17 19:43:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图通过使用外部词汇表来构建Gensim word2vec模型。我知道Gensim有一个内部词汇生成器,但是我对它们没有同样的控制。我的问题代码很简单。在

import gensim
from sklearn.feature_extraction.text import CountVectorizer

corpus = corpusCleaner(raw_corpus)
vocabularyGenerator = CountVectorizer(strip_accents="ascii", stop_words="english")
vocabularyGenerator.fit(corpus)
vocabulary = vocabularyGenerator.vocabulary_
model = gensim.models.Word2Vec()
model.build_vocab_from_freq(vocabulary)

我得到了 C: \Anaconda3\envs\workflow\lib\site packages\gensim\models\word2矢量:1235:RuntimeWarning:在int_标量中遇到溢出 retain_pct=retain_total*100/最大(原始_total,1)


Tags: 词汇表from模型importmodelmodelscorpusword2vec