is a method of performing probabilistic dimension reduction of high-dimensional data. The basic idea is to hash the input items so that similar items are mapped to the same buckets with high probability (the number of buckets being much smaller than the universe of possible input items)
关于感知哈希函数的博客文章(在图像上下文中):
以及一些相关的python代码(处理图像,而不是文本,但可能是可调整的):
正如我所理解的关于Perceptual Hashing of Textual Content的简短陈述,有许多方法(在不同的维度,如文本的层次、语言或统计方法、选择来表示文本的模型,…),正确的方法将取决于您的领域和您试图解决的问题。在
您还可以查看Locality-sensitive hashing,其中
相关问题 更多 >
编程相关推荐