创建矢量sp

2024-09-25 06:35:20 发布

您现在位置:Python中文网/ 问答频道 /正文

我有个问题: 我有很多文档,每一行都是用某种模式构建的。 当然,我有一系列的模式。在

我想创建一些向量空间,然后用一些规则来向量化这个模式(我还不知道这个规则是什么…)——也就是说,让这个模式像向量空间的“质心”。 然后对当前文档的每一行进行矢量化(同样按此规则),并计算该行的密室质心(即两个矢量之间距离的最小值)。在

我不知道我该怎么做? 我知道sklearn库和CountVectorizer/TfidfVectorizer/HashingVectorizer,但这取决于词汇表的大小。但是,同样,我有很多文档,这就是为什么词汇表中会有太多的单词(如果这样做,但是在下一个新文档中,它可能是这个词汇表没有的新词。这就是解决我问题的错误方法) 另外,Keras库的文本预处理也不能解决我的第二个问题。E、 x.“one hot”将文本编码到大小为的单词索引列表中。但是每个文档可能有不同的大小和顺序。这就是比较两个向量的方式可能会得到很大的距离,但实际上这个向量(由这个向量编码的单词)非常相似。在


Tags: 词汇表文档文本距离编码规则矢量模式