如何在将训练语料库传递给sklearn中的TfidfVectorizer之前应用自定义词干分析器？

from sklearn.feature_extraction.text import TfidfVectorizer import nltk from nltk.stem.snowball import SnowballStemmer stemmer_ita = SnowballStemmer("italian") def tokenizer_stemmer_ita(text): return [stemmer_ita.stem(word) for word in text.split()] def sentence_tokenizer_stemmer(text): return " ".join([stemmer_ita.stem(word) for word in text.split()]) X_train = ['il libro è sul tavolo'] X_train = [sentence_tokenizer_stemmer(text) for text in X_train] tfidf = TfidfVectorizer(preprocessor=None, tokenizer=None, use_idf=True, stop_words=None, ngram_range=(1,2)) X_train = tfidf.fit_transform(X_train) # let's see the features print (tfidf.get_feature_names())

1条回答

网友

1楼 · 发布于 2024-09-29 02:16:50

这是因为TfidfVectorizer中使用的默认标记器模式token_pattern：

token_pattern : string
Regular expression denoting what constitutes a “token”, only used if analyzer == 'word'. The default regexp selects tokens of 2 or more alphanumeric characters (punctuation is completely ignored and always treated as a token separator).

所以没有选择字符è。

import re
token_pattern = re.compile(u'(?u)\\b\\w\\w+\\b')
print token_pattern.findall('il libro è sul tavolo')

# Output
# ['il', 'libro', 'sul', 'tavolo']

这个默认的token_pattern在标记器为None时使用，正如您所经历的那样。在

相关问题更多 >

编程相关推荐

热门问题

热门文章