为什么Python计算的“hashlib.sha1”和“git hash-object”对于一个文件来说不同？

2条回答

网友

1楼 · 编辑于 2024-09-19 14:23:21

作为参考，这里有一个更简洁的版本：

def sha1OfFile(filepath):
    import hashlib
    with open(filepath, 'rb') as f:
        return hashlib.sha1(f.read()).hexdigest()

再想一想：虽然我从未见过，但我认为有可能f.read()返回的文件比完整文件少，或者有可能返回许多GB的文件，使f.read（）耗尽内存。对于每个人的启迪，让我们考虑一下如何解决这个问题：第一个解决方法是：

def sha1OfFile(filepath):
    import hashlib
    sha = hashlib.sha1()
    with open(filepath, 'rb') as f:
        for line in f:
            sha.update(line)
        return sha.hexdigest()

然而，根本不能保证'\n'出现在文件中，因此for循环将给我们以'\n'结尾的文件块这一事实可能会给我们带来与原来相同的问题。遗憾的是，我没有看到任何类似的python方法来迭代尽可能大的文件块，我认为，这意味着我们陷入了while True: ... break循环和块大小的幻数：

def sha1OfFile(filepath):
    import hashlib
    sha = hashlib.sha1()
    with open(filepath, 'rb') as f:
        while True:
            block = f.read(2**10) # Magic number: one-megabyte blocks.
            if not block: break
            sha.update(block)
        return sha.hexdigest()

当然，谁说我们可以存储1兆字节的字符串。我们也许可以，但是如果我们在一台微型嵌入式计算机上呢？

我希望我能想出一个更干净的方法，保证不会在巨大的文件上耗尽内存，而且没有神奇的数字，而且性能和最初的简单Pythonic解决方案一样好。

网友

2楼 · 编辑于 2024-09-19 14:23:21

git计算散列如下：

sha1("blob " + filesize + "\0" + data)

Reference

相关问题更多 >

编程相关推荐

热门问题

热门文章

为什么Python计算的“hashlib.sha1”和“git hash-object”对于一个文件来说不同？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >