使用scikitlearn返回文档中的术语位置

2条回答

网友

1楼 · 编辑于 2024-09-27 04:27:26

经过一番反复试验，我找到了这个问题的解决办法。首先创建过帐

vectorizer = CountVectorizer()

term_doc_freq = vectorizer.fit_transform(collection['document'])

然后用一组术语id来表示每个文档

^{pr2}$

网友

2楼 · 编辑于 2024-09-27 04:27:26

你是说这个吗？在

In [13]: from sklearn.feature_extraction.text import CountVectorizer

In [14]: vectorize = CountVectorizer(min_df=1)

In [15]: document1 = "foo bar baz"
    ...: document2 = "bar bar baz dee"
    ...: 

In [16]: documents = [document1, document2]

In [17]: d = vectorize.fit_transform(documents)

In [18]: vectorize.vocabulary_
Out[18]: {u'bar': 0, u'baz': 1, u'dee': 2, u'foo': 3}

In [19]: d.todense()
Out[19]: 
matrix([[1, 1, 0, 1],
        [2, 1, 1, 0]], dtype=int64)

编程相关推荐

安卓 Java。null对象引用上的lang.NullPointerException
java如何测试传递的对象是集合还是数组
java如何重新培训接收v3？
Netbeans中的Java类SimpleDate不是SimpleDateFormat问题
从安卓库项目引用的java Jar未被应用程序引用。NoClassDefFoundError
java寻找奇数除数
java在不同的JVM上运行多个JMS使用者
java倾斜缓冲区有关xaxis的图像
Java中的最大子序列和算法
Spring REST中的java EOFEException

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用scikitlearn返回文档中的术语位置

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >