我使用sci-kit
的TdidfVectorizer
从科学文章列表中提取关键字。有人认为停止语是有争议的,但我想知道我是否可以给诸如“波尔”或“日本”这样的专有名词赋予更多的权重/分数。在
我将必须实现我自己的自定义tfidf vectorizer
还是仍然可以使用这个内置的?在
tf = TfidfVectorizer(strip_accents='ascii',
analyzer='word',
ngram_range=(1,1),
min_df = 0,
stop_words = stopwords,
lowercase = True)
Tags:
您可以自己对TfIdf矩阵进行后处理。在
首先,您需要查看所有单词索引以找到所有专有名词的索引,然后查看矩阵并增加这些索引的权重。在
相关问题 更多 >
编程相关推荐