擅长:python、mysql、java
<p>您可以对数据进行小批量处理,并对每个批次分别应用数据质量验证。此外,deequ允许有状态地计算数据质量度量,正如James已经指出的那样,度量在两个数据分区上计算,然后合并。你可以找到这个<a href="https://github.com/awslabs/deequ/blob/master/src/main/scala/com/amazon/deequ/examples/algebraic_states_example.md" rel="nofollow noreferrer">here</a>的例子</p>
<p>是否有deequ文档中未包含的具体示例?您可以找到一个针对Spark数据帧<a href="https://github.com/awslabs/deequ/blob/master/src/main/scala/com/amazon/deequ/examples/BasicExample.scala" rel="nofollow noreferrer">here</a>运行deequ的基本示例。此外,同一文件夹中还有更多示例,例如异常检测用例</p>
<p>免责声明:我是deequ的作者之一</p>