我正在尝试创建一个forst,用于最近邻搜索,但我不确定是否正确,或者MinHash/LSH是否适合我的数据。我问这个是因为结果不可用。在
我试图遵循文档中的example。在
我的数据:
512维,例如值是位,例如0或1
这实际上对MinHash/LSH有用吗?
如果是,我该如何为每个记录构造MinHash?在
据我所知,minhash的目的已经是将数据映射到这样一个位结构?所以我就可以把它装进去?如h = MinHash(num_perm=512, hashvalues=listOfBits)
中所示?在
Tags:
MinHash是一种可以使用的技术,如果单个数据记录可以被描述为集合(例如,文本文档作为单词集),并且这些记录之间的相似性通过对应集合的Jaccard相似性来描述。在
如果你真的想应用MinHash,你需要首先找到一种方法来表示你的512大小的位向量。一种可能性是考虑值为1的比特索引集。接下来,您需要考虑这些位索引集之间的Jaccard相似性是否真的有意义,并恰当地描述了相似性。在
相关问题 更多 >
编程相关推荐