每月一次

1条回答

网友

1楼 · 发布于 2024-10-03 19:21:34

LSH不存储整个文档，也不存储单个minhash。更确切地说，它是一堆杂碎。在

LSH既可以减少每个文档存储的散列数，也可以减少使用这些散列搜索相似文档时的命中数。它通过将多个minhash组合成一个散列来实现这一点。因此，例如，不必为每个文档存储200个minhash，而是可以将它们组合成4个带段，从而生成50个对位置敏感的哈希。在

每个频带的散列由其组成的minhash使用诸如FNV-1a这样的廉价散列函数来计算。这会丢失一些信息，这就是为什么LSH被称为减少数据的维数。得到的哈希就是bucket。在

因此，计算文档中每个minhash波段的bucket时，不需要了解任何其他波段或任何其他文档。在

使用LSH哈希来查找相似的文档很简单：假设您想查找与文档A相似的文档。首先为文档A生成（例如）50个LSH哈希。然后在哈希字典中查找共享一个或多个哈希的所有其他文档。共享的散列越多，估计的jaccard相似性就越高（尽管这不是线性关系，就像使用普通minhash时一样）。在

每个文档存储的哈希总数越少，估计的jaccard相似性的错误就越大，丢失类似文档的可能性也就越大。在