我知道scikit learn遵循了单词袋假设/模型,根据documentation。然而,有没有办法在计算tf-idf时提取术语位置?在
例如,如果我有这些文件
document1 = "foo bar baz"
document2 = "bar bar baz"
我能得到这个吗(一个元组/术语表)
^{pr2}$or(以位置元组为值的术语词典)
document1_terms = {1: (1, ), 2: (2, ), 3: (3, )}
document2_terms = {2: (1, 2), 3: (3, )}
经过一番反复试验,我找到了这个问题的解决办法。首先创建过帐
然后用一组术语id来表示每个文档
^{pr2}$你是说这个吗?在
相关问题 更多 >
编程相关推荐