<p>我想计算一个<code>h2o.frame.H2OFrame</code>的散列值。理想情况下,<code>R</code>和<code>python</code>。我对<code>h2o.frame.H2OFrame</code>的理解是,这些对象基本上“活”在<code>h2o</code>服务器上(即,由一些<code>Java</code>对象表示),而不是在<code>R</code>或<code>python</code>内,它们可能是从那里上传的。你知道吗</p>
<p>我想计算哈希值“尽可能接近”实际的训练算法。这就排除了对基础<code>R</code>或<code>python</code>对象以及从中加载数据的任何基础文件的哈希值(序列化)的计算。
原因是我想捕获<code>h2o</code>的上载函数对底层数据执行的所有(可能的)更改。你知道吗</p>
<p>从<a href="https://h2o-release.s3.amazonaws.com/h2o/rel-slater/9/docs-website/h2o-py/docs/frame.html" rel="nofollow noreferrer">h2o docs</a>推断,没有通过<code>h2o.frame.H2OFrame</code>公开的类似哈希的功能。
实现<code>h2o</code>数据的散列式摘要的一种可能性是对所有数字列求和,并对分类列执行类似的操作。但是,我真的希望在我的哈希函数中有一些雪崩效应,这样函数输入的小变化会导致输出的大差异。这一要求排除了简单求和之类的情况。你知道吗</p>
<p>是否已经有一些我可能忽略的接口?
如果没有,我如何才能完成上述任务?你知道吗</p>
<pre><code>import h2o
h2o.init()
iris_df=h2o.upload_file(path="~/iris.csv")
# what I would like to achieve
iris_df.hash()
# >>> ab2132nfqf3rf37
# ab2132nfqf3rf37 is the (made up) hash value of iris_df
</code></pre>
<p>谢谢你的帮助。你知道吗</p>