如何在scikit-TfidfVectoriz中赋予专有名词更大的权重

2024-10-02 12:33:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用sci-kitTdidfVectorizer从科学文章列表中提取关键字。有人认为停止语是有争议的,但我想知道我是否可以给诸如“波尔”或“日本”这样的专有名词赋予更多的权重/分数。在

我将必须实现我自己的自定义tfidf vectorizer还是仍然可以使用这个内置的?在

tf = TfidfVectorizer(strip_accents='ascii', 
                     analyzer='word',
                     ngram_range=(1,1),
                     min_df = 0,
                     stop_words = stopwords,
                     lowercase = True)

Tags: 列表tf文章科学关键字内置分数kit

热门问题