“TfidfVectorizer”以什么方式处理单位数？

1条回答

网友

1楼 · 发布于 2024-09-30 04:26:30

这是因为token_pattern，也就是’(?u)\b\w\w+\b’。这意味着它将提取长度大于1的字母数字标记。因此像1、2这样的标记在vocubulary_中没有被发现。你知道吗

Here位置，token_pattern用于提取令牌。你知道吗

举个例子

import re
token_pattern = re.compile(r'(?u)\b\w\w+\b')
token_pattern.findall('i would like to test this 1 11')

# ['would', 'like', 'to', 'test', 'this', '11']

我们可以发现字母数字标记i，1没有从findall中提取出来，因为\b\w\w+\b模式。你知道吗

如果需要包含单字符标记，则使用\b\w+\b。你知道吗

编程相关推荐

netbeans在加载java库时遇到问题
用HashMap代替数据库进行java搜索
arraylist Java：我应该使用什么类型作为可调整大小的原语列表？
java无法访问Cloud Firestore子项的值
将Eclipse设置为在终止调试时自动切换到Java透视图
java JSP/Jquery组合框下拉列表，通过图像从数据库动态加载
java枚举会话属性
jdk1。7启动java应用程序
类如何创建适当的Java实例？
java如何在字段为空时中断

相关问题更多 >

编程相关推荐

热门问题

热门文章

“TfidfVectorizer”以什么方式处理单位数？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >