Python中文
首页
教程
问答
标签
搜索
登录
注册
创建tfidf值矩阵
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有一组<code>documents</code>类似:</p> <pre><code>D1 = "The sky is blue." D2 = "The sun is bright." D3 = "The sun in the sky is bright." </code></pre> <p>以及一组<code>words</code>类似的:</p> <pre><code>"sky","land","sea","water","sun","moon" </code></pre> <p>我想创建这样的矩阵:</p> <pre><code> x D1 D2 D3 sky tf-idf 0 tf-idf land 0 0 0 sea 0 0 0 water 0 0 0 sun 0 tf-idf tf-idf moon 0 0 0 </code></pre> <p>类似于这里给出的示例表:<a href="http://www.cs.duke.edu/courses/spring14/compsci290/assignments/lab02.html" rel="nofollow">http://www.cs.duke.edu/courses/spring14/compsci290/assignments/lab02.html</a>。在给定的链接中,它使用文档中的相同单词,但我需要使用前面提到的<code>words</code>集合。</p> <p>如果文档中存在特定的单词,则我将<code>tf-idf</code>值放入矩阵,否则我将<code>0</code>放入矩阵。</p> <p>你知道我该如何建立这样的矩阵吗?Python将是最好的,但R也赞赏。</p> <p>我正在使用以下代码,但不确定我是否做了正确的事情。我的代码是:</p> <pre><code>from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from nltk.corpus import stopwords train_set = "The sky is blue.", "The sun is bright.", "The sun in the sky is bright." #Documents test_set = ["sky","land","sea","water","sun","moon"] #Query stopWords = stopwords.words('english') vectorizer = CountVectorizer(stop_words = stopWords) #print vectorizer transformer = TfidfTransformer() #print transformer trainVectorizerArray = vectorizer.fit_transform(train_set).toarray() testVectorizerArray = vectorizer.transform(test_set).toarray() #print 'Fit Vectorizer to train set', trainVectorizerArray #print 'Transform Vectorizer to test set', testVectorizerArray transformer.fit(trainVectorizerArray) #print #print transformer.transform(trainVectorizerArray).toarray() transformer.fit(testVectorizerArray) #print tfidf = transformer.transform(testVectorizerArray) print tfidf.todense() </code></pre> <p>我得到的结果非常荒谬(值只有<code>0</code>和<code>1</code>,而我期望值介于0和1之间)。</p> <pre><code>[[ 0. 0. 1. 0.] [ 0. 0. 0. 0.] [ 0. 0. 0. 0.] [ 0. 0. 0. 0.] [ 0. 0. 0. 1.] [ 0. 0. 0. 0.] [ 1. 0. 0. 0.]] </code></pre> <p>我也向其他库开放以计算<code>tf-idf</code>。我只想要一个正确的矩阵,我在上面提到过。</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>我相信你想要的是</p> <pre><code>vectorizer = TfidfVectorizer(stop_words=stopWords, vocabulary=test_set) matrix = vectorizer.fit_transform(train_set) </code></pre> <p>(如前所述,这不是一个测试集,而是一个词汇表。)</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
为什么在使用strptime时会出现未进行转换的数据错误?
2 回答
为什么在使用strptim时会出现这个datetime日期错误
2 回答
为什么在使用StyleFrame时索引列的标题不显示sf.至excel()?
10 回答
为什么在使用sum()函数时会发生“int”对象不可调用的错误?
9 回答
为什么在使用sympy.dsolve时会得到“'list'对象没有属性'func'”?
7 回答
为什么在使用tabla时会得到一个空的数据帧?
4 回答
为什么在使用tensorboard时需要add_graph()的第二个参数?
4 回答
为什么在使用TensorFlow Lite转换YOLOv4时,推断时间/大小没有改进?有什么可能的改进吗?
2 回答
为什么在使用Tensorflow加载训练批时会出现内存泄漏?
7 回答
为什么在使用tensorflow时会收到警告/错误(使用函数API,但未实现错误)
10 回答
为什么在使用tetpyclient发出POST请求时出现403错误?
10 回答
为什么在使用TextBlob时会出现HTTP错误?
9 回答
为什么在使用TFIDF时出现错误“IndexError:list index out of range”pyspark.ml.feature?
3 回答
为什么在使用timedelta格式化之后,我在python中的日期是错误的?
3 回答
为什么在使用timeit或exec函数时,函数中的变量不会在提供的全局命名空间中搜索?
1 回答
为什么在使用tkinter时不能使用复选框?
2 回答
为什么在使用todoistpythonapi时会返回这个奇怪的ID?
7 回答
为什么在使用TQM时,在调整图像大小时,处理时间会有很大的差异?
6 回答
为什么在使用Tweepy下载用户时间线时收到错误消息
6 回答
为什么在使用twitter帐户登录Django应用程序时重定向127.0.0.1:8000?
5 回答