Python一致散列替换

def const_hash(x): if isinstance(x, (int, float, bool)): pass elif isinstance(x, frozenset): x = frozenset([const_hash(v) for v in x]) elif isinstance(x, str): x = tuple([ord(e) for e in x]) elif isinstance(x, bytes): x = tuple(x) elif isinstance(x, dict): x = tuple([(const_hash(k), const_hash(v)) for k, v in x.items()]) elif isinstance(x, (list, tuple)): x = tuple([const_hash(e) for e in x]) else: try: return x.const_hash() except AttributeError: raise TypeError(f'no known const_hash implementation for {type(x)}') return hash(x)

1条回答

网友

1楼 · 发布于 2024-05-10 15:13:28

对广泛问题的简短回答：除了x == y要求hash(x) == hash(y)的总体保证之外，没有明确的关于散列稳定性的保证。这意味着x和y都是在程序的同一次运行中定义的（如果x == y其中一个显然不存在于该程序中，则无法执行，因此不需要保证跨运行的哈希）

具体问题的详细答案：

Is [your belief that int, float, tuple(x), frozenset(x) (for x with consistent hash) have consistent hashes across separate runs] always true and guaranteed?

数字类型也是如此，使用the mechanism being officially documented，但是该机制只保证特定编译的特定解释器。^{} provides the various constants，它们在该解释器上是一致的，但是在不同的解释器上（CPython vs.pypypy，64位编译vs.32位编译，甚至3.n vs.3.n+1），它们可能不同（在64位与32位CPython的情况下，记录的结果有所不同），因此哈希值不能在具有不同解释器的机器之间移植

对于tuple和frozenset的算法没有任何保证；我想不出任何理由他们会在运行之间更改它（如果底层类型是种子，那么tuple和frozenset会从中受益，而不需要任何更改），但是他们可以并且确实会在不同版本的CPython之间更改实现（例如in late 2018 they made a change to reduce the number of hash collisions in short ^{}s of ^{}s and ^{}s），因此，如果存储3.7中的tuple散列，然后在3.8+中计算相同tuple的散列，它们将不匹配（即使它们在3.7上的运行之间或在3.8上的运行之间匹配）

If so, is that expected to stay that way?

我可以很容易地看到int的种子散列（扩展来说，所有数值类型都保留数值散列/相等保证），原因与它们为str/bytes等种子散列相同。主要障碍是：

它几乎肯定会比当前非常简单的算法慢
通过显式地记录数值散列算法，他们需要很长一段时间的反对，然后才能更改它
这并不是绝对必要的（如果web应用程序需要种子哈希来保护DoS，它们总是可以在将int作为密钥使用之前将其转换为str）

Is the PYTHONHASHSEED only applied to salt the hash of strings and byte arrays?

除了str和bytes之外，它还适用于一些随机的东西，这些东西根据str或bytes的散列实现自己的散列，通常是因为它们已经可以自然地转换为原始字节，并且通常用作dict中的键它由面向web的前端填充。我所知道的这些前端包括各种类型的datetime模块（datetime、date、time，尽管模块本身中没有实际记录），以及具有字节大小格式的只读memoryview（即hash equivalently to hashing the result of the view's ^{} method）

What would be a good way to write a consistent hash replacement for hash(frozenset(some_dict.items())) when the dict contains various types and classes?

最简单/最可组合的解决方案可能是将const_hash定义为a single dispatch function，使用方法与hash本身相同。这避免了在一个地方定义一个必须处理所有类型的函数；您可以使用const_hash默认实现（它只依赖于hash对于那些具有已知一致散列的内容），并为您知道的不一致（或可能包含不一致内容）的内置类型提供其他定义在那里，虽然仍然允许人们通过导入const_hash并用@const_hash.register装饰其类型的实现来注册他们自己的单一分派函数，从而无缝地扩展它所涵盖的内容集。实际上，它与您建议的const_hash没有显著区别，但它更易于管理

相关问题更多 >

编程相关推荐

热门问题

热门文章