LSH使用散列时的混乱 - 问答 - Python中文网

LSH使用散列时的混乱

2024-09-30 14:36:21 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

Matrix M是签名矩阵，它通过对实际数据的Minhashing生成，将文档作为列，单词作为行。所以列代表一个文档。在

现在它说，每个条带（编号为b，长度为r）都对其列进行散列处理，因此列落在一个桶中。如果两个列落在同一个存储桶中，因为>；=1条条纹，那么它们可能是相似的。在

所以这意味着我应该创建b哈希表并找到b独立的哈希函数？或者只需要一个就足够了，每个条带将其列发送到相同的bucket集合（但是这不会取消条带吗）？在

在这种情况下，一个字典对于哈希表是否足够？在

*_{Is a Python dictionary an example of a hash table?}

Tags：数据函数文档 gt 字典 bucket 情况代表

1条回答

网友

1楼 · 发布于 2024-09-30 14:36:21

我想我已经想好了，为将来的读者发帖。在

我将使用一个字典，因为幻灯片提到对每个条带（dictionaries do that）使用相同的哈希函数是可以的。在

每个桶都是我们字典的钥匙。在

在插入时，一个文档（即属于条带的列）将由一个散列函数（它将创建we创建）传递，结果应该是一个键。这样我们的字典就会被填充了。在

相关问题更多 >

编程相关推荐

热门问题

热门文章