Python imohash包_程序模块 - PyPI

大文件的快速散列

imohash的Python项目详细描述

imohash是一个快速、恒定时间的哈希库。它使用文件大小和采样以快速计算哈希值，而不考虑文件大小。它最初是作为Go library发布的。

imosum是从命令行散列文件的示例应用程序，类似于 MD5总和。

安装

pip install imohash

用法

作为库：

fromimohashimporthashfilehashfile('foo.txt')'O\x9b\xbd\xd3[\x86\x9dE\x0e3LI\x83\r~\xa3'hashfile('foo.txt',hexdigest=True)'a608658926d8aa86b3db8208ad279bfe'# just hash the whole file if smaller then 200000 bytes. Default is 128Khashfile('foo.txt',sample_threshhold=200000)'x86\x9dE\x0e3LI\x83\r~\xa3O\x9b\xbd\xd3[E'# use samples of 1000 bytes. Default is 16Khashfile('foo.txt',sample_size=1000)'E\x0e3LI\x83\r~\xa3O\x9b\xbd\xd3[E\x23\x25'# hash an already opened filef=open('foo.txt')hashfileobject(f)'O\x9b\xbd\xd3[\x86\x9dE\x0e3LI\x83\r~\xa3'# hash a file on a remote serverimportparamikossh=paramiko.SSHClient()ssh.connect('host',username='username',password='verysecurepassword')ftp=ssh.open_sftp()hashfileobject(ftp.file('/path/to/remote/file/foo.txt'))'O\x9b\xbd\xd3[\x86\x9dE\x0e3LI\x83\r~\xa3'

或从命令行：

imosum *.jpg

使用

因为imohash只读取文件数据的一小部分，所以它非常快速且非常适合文件同步和重复数据消除，尤其是在一个相当慢的网络上。需要管理媒体（照片和视频）在NAS和多台家庭计算机之间通过Wi-Fi 图书馆诞生了。

如果你只需要检查两个文件是否相同采样的局限性（见下文），imohash可能是一个很好的合身。

误用

因为imohash只读取文件数据的一小部分，所以它不是适用于：

文件验证或完整性监视
操作固定大小文件的情况
任何加密

设计

（注意：在algorithm description中提供了更精确的描述。）

imohash的工作原理是从一开始就对小块数据进行哈希处理，文件的中间和结尾。它还将文件大小合并到最后的128位哈希。这种方法基于一些假设将因应用程序而异。首先，仅文件大小往往是很好的区分，特别是随着文件大小的增加。什么时候人们处理文件（如编辑照片），大小往往改变。所以大小直接用于散列，并且任何具有不同的大小将有不同的散列。

大小是一个有效的区分因素，但还不够。它可以显示这两个文件不一样，但为了增加信心就像大小文件一样，一些段使用 murmur3，一个快速的有效的哈希算法。默认情况下，从一开始就有16K块，使用文件的中间和结尾。文件的结尾通常包含在不影响文件大小的情况下更容易更改的元数据。中间是很好的尺度。样本大小可以根据您的申请。

1在要检查的文件样本上尝试du -a . | sort -nr | less。这个断言。

小文件豁免

小文件比大文件更容易在大小上发生冲突。他们是也可能更可能以微妙的方式改变抽样将未命中（例如编辑大文本文件）。因此，伊莫哈什将如果小于128K，只需散列整个文件。也可配置。

性能

标准哈希性能指标对于imohash来说没有意义，因为它只读取有限的一组数据。也就是说，现实世界性能非常好。如果使用大文件和/或慢网络，期待巨大的加速。（spoiler：读取48K更快比读取500MB。）

名称

灵感来自ILS marker beacons。

学分

“斯巴塞指纹”用于 TMSU给了我一些信心这种散列方法。
Sébastien Paolacci的 murmur3库完成所有操作在围棋版本中的重量级提升。
哈吉姆·塞努玛也是 mmh3python版本的库。

欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

导航栏
项目描述
版本历史
下载文件
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
kalafut
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
得到媒体：缩略图url从rss源
得到对数正态随机数给定log10均值和log10标准差
得到工作，波斯特不
得到左半积和右半积的绝对差最小的元素
得到幻数错误？
得到异常错误“线程中的异常-1（最有可能在解释器关闭期间引发）”，它使用Parami
得到循环
得到德语的语法变化
得到我认为是好的结果，但还不够
得到截断svd.transform（）返回float16而不是float64
得到所有不相交的集合的并集
得到所有函数求值组合的矩阵
得到扭曲延迟取消错误当使用刮痧时
得到控制台.log使用Selenium python从Chrome输出一次，然后调用第二次为空
得到操作系统环境通过NSSM运行Python

imohash 1.0.4

imohash的Python项目详细描述

安装

用法

使用

误用

设计

小文件豁免

性能

名称

学分

推荐PyPI第三方库

sustainalytics

seriarduino

py-trees-js

deepacvir

url2

gym-fetch

FB2

eark

mega-spark

sca2d

pyrpds

pybenutils

excelkit

mzmlripper

asterisk-odoo-agent

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

imohash 1.0.4

imohash的Python项目详细描述

安装

用法

使用

误用

设计

小文件豁免

性能

名称

学分

推荐PyPI第三方库

sustainalytics

seriarduino

py-trees-js

deepacvir

url2

gym-fetch

FB2

eark

mega-spark

sca2d

pyrpds

pybenutils

excelkit

mzmlripper

asterisk-odoo-agent

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签