tfidf sickitlearn将“word”与word分开

import re from sklearn.feature_extraction.text import CountVectorizer sent1 = "The cat sat on my \"face\" face" sent2 = "The dog sat on my bed" content = [sent1,sent2] vectorizer = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'") vectorizer.fit(content) print (vectorizer.get_feature_names())

2条回答

网友

1楼 · 编辑于 2024-10-05 14:27:47

你的令牌模式是

token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'"

它正在查找单词（\b\w\w+\b）或感叹号、问号或引号。试试这样的

token_pattern=r"(?u)\b\w\w+\b|\"\b\w\w+\b\"|!|\?|\'"

注意这部分

\"\b\w\w+\b\"

寻找一个被引号括起来的词。你知道吗

网友

2楼 · 编辑于 2024-10-05 14:27:47

您需要根据需要调整token_pattern参数。以下内容适用于所提供的示例：

pattern = r"\S+[^!?.\s]"
vectorizer = CountVectorizer(token_pattern=pattern)

但是，您可能需要进一步完善该模式。https://regex101.com可能有助于正确地使用正则表达式。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章