Python中文
首页
教程
问答
标签
搜索
登录
注册
如何使用Scikit Learn countvector获取语料库中的单词频率?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我试图使用scikit learn的<code>CountVectorizer</code>计算一个简单的单词频率。</p> <pre><code>import pandas as pd import numpy as np from sklearn.feature_extraction.text import CountVectorizer texts=["dog cat fish","dog cat cat","fish bird","bird"] cv = CountVectorizer() cv_fit=cv.fit_transform(texts) print cv.vocabulary_ {u'bird': 0, u'cat': 1, u'dog': 2, u'fish': 3} </code></pre> <p>我以为它会返回<code>{u'bird': 2, u'cat': 3, u'dog': 2, u'fish': 2}</code>。</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p><code>cv_fit.toarray().sum(axis=0)</code>确实给出了正确的结果,但是对稀疏矩阵执行求和并将其转换为数组要快得多:</p> <pre><code>np.asarray(cv_fit.sum(axis=0)) </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
无法使用Django restfram生成PDF
2 回答
无法使用Django Rest框架发送压缩的gzip数据
2 回答
无法使用Django rest框架进行身份验证(请求用户=匿名用户)
5 回答
无法使用Django、Python和JavaScrip触发onclick函数
2 回答
无法使用Django.views.generic.View保存表单
9 回答
无法使用Django(python 2.7,OS X 10.11.1)
5 回答
无法使用Django/mongoengine连接到MongoDB(身份验证失败)
2 回答
无法使用Django\u mssql\u后端迁移到外部hos
9 回答
无法使用Django&Python3.4连接到MySql
9 回答
无法使用Django+nginx上载媒体文件
7 回答
无法使用Django1.6导入名称模式
8 回答
无法使用Django1.7和mongodb登录管理站点
8 回答
无法使用Djangoadmin创建项目,进程使用了错误的路径,因为我事先安装了错误的Python
7 回答
无法使用Djangockedi验证CBV中的字段
6 回答
无法使用Djangocketditor上载图像(错误400)
8 回答
无法使用Djangocron进行函数调用
8 回答
无法使用Djangofiler djang上载文件
9 回答
无法使用Djangokronos
10 回答
无法使用Djangomssql provid
5 回答
无法使用Djangomssql连接到带有Django 1.11的MS SQL Server 2016
3 回答