Python中文
首页
教程
问答
标签
搜索
登录
注册
Python scikit学习说话者从句子中选择最好的单词
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我试图在一个包含两个说话者的句子的数据库中使用scikit学习函数SelectKBest。 我的目标是找到30个最好的词,可以作为功能,以分开这两个发言者,我想打印到屏幕上。你知道吗</p> <p>这些句子存储在一个列表<code>sentences[]</code>中,我有关于每个句子的说话人的信息(存储在另一个列表<code>speakers[]</code>)</p> <p>我还需要为这些K个最佳特征创建向量,并能够在这些向量上使用分类器。你知道吗</p> <p>当前代码:(句子包含每个说话人10000个句子,已排序)</p> <pre class="lang-py prettyprint-override"><code>speakers = [0] * 10000 + [1] * 10000 vectorizer = TfidfVectorizer() vectors = vectorizer.fit_transform(sentences) kbest = SelectKBest(chi2, k=30).fit(vectors, speakers) outcome = kbest.get_support() for i in range(0,len(sentences)): if outcome[i]: print (sentences[i]) </code></pre> <p>我不确定它是否找到了正确的单词或选择了完整的句子,如果找到了,我也不确定如何打印它找到的单词。(目前,当我直接打印一个与SelectKBest找到的内容有匹配索引的句子时,它显然会打印整个句子)。你知道吗</p> <p><strong>我可能需要在特征向量的第I个位置找到单词,但我不确定如何找到。</strong></p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您可以获得由<code>SelectKBest</code>给出的前k个单词</p> <pre><code>print([vectorizer.get_feature_names()[idx] for idx,flag in enumerate(outcome) if flag]) </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
为什么在使用strptime时会出现未进行转换的数据错误?
3 回答
为什么在使用strptim时会出现这个datetime日期错误
9 回答
为什么在使用StyleFrame时索引列的标题不显示sf.至excel()?
3 回答
为什么在使用sum()函数时会发生“int”对象不可调用的错误?
3 回答
为什么在使用sympy.dsolve时会得到“'list'对象没有属性'func'”?
4 回答
为什么在使用tabla时会得到一个空的数据帧?
3 回答
为什么在使用tensorboard时需要add_graph()的第二个参数?
9 回答
为什么在使用TensorFlow Lite转换YOLOv4时,推断时间/大小没有改进?有什么可能的改进吗?
10 回答
为什么在使用Tensorflow加载训练批时会出现内存泄漏?
5 回答
为什么在使用tensorflow时会收到警告/错误(使用函数API,但未实现错误)
6 回答
为什么在使用tetpyclient发出POST请求时出现403错误?
6 回答
为什么在使用TextBlob时会出现HTTP错误?
2 回答
为什么在使用TFIDF时出现错误“IndexError:list index out of range”pyspark.ml.feature?
10 回答
为什么在使用timedelta格式化之后,我在python中的日期是错误的?
5 回答
为什么在使用timeit或exec函数时,函数中的变量不会在提供的全局命名空间中搜索?
5 回答
为什么在使用tkinter时不能使用复选框?
6 回答
为什么在使用todoistpythonapi时会返回这个奇怪的ID?
4 回答
为什么在使用TQM时,在调整图像大小时,处理时间会有很大的差异?
4 回答
为什么在使用Tweepy下载用户时间线时收到错误消息
3 回答
为什么在使用twitter帐户登录Django应用程序时重定向127.0.0.1:8000?
9 回答