用于探索和验证机器学习数据的库。

tensorflow-data-validation的Python项目详细描述


TensorFlow数据验证

PythonPyPIDocumentation

TensorFlow Data Validation(TFDV)是一个用于探索和验证的库 机器学习数据。它的设计是高度可扩展的 以及与TensorFlow和TensorFlow Extended (TFX)一起工作。在

TF数据验证包括:

  • 训练和测试数据汇总统计的可伸缩计算。在
  • 与查看器集成,以查看数据分布和统计信息 作为特征对的分面比较(Facets
  • 自动data-schema 描述数据期望的生成 比如所需的值、范围和词汇表
  • 帮助您检查架构的架构查看器。在
  • 异常检测以识别anomalies, 比如缺少特征, 超出范围的值或错误的要素类型,仅举几个例子。在
  • 一个异常查看器,以便您可以看到哪些特征具有异常和 了解更多以纠正这些错误。在

有关使用TFDV的说明,请参阅get started guide 试试example notebook。 TFDV中实现的一些技术在 technical paper published in SysML'19。在

注意:TFDV在1.0版之前可能向后不兼容。在

从PyPI安装

安装TFDV的推荐方法是使用 PyPI package

pip install tensorflow-data-validation

夜间套餐

TFDV还在上的https://pypi-nightly.tensorflow.org托管夜间包 谷歌云。要安装最新的夜间软件包,请使用以下命令 命令:

^{pr2}$

这将为TFDV的主要依赖项安装夜间包,例如 作为TensorFlow转换(TFT)、TFX基本共享库(TFX-BSL)、TensorFlow 元数据(TFMD)。在

使用Docker构建

这是在Linux下构建TFDV的推荐方法,并且是连续的 在谷歌测试过。在

1。安装Docker

请首先按照以下说明安装docker和{}: dockerdocker-compose。在

2。克隆TFDV存储库

git clone https://github.com/tensorflow/data-validation
cd data-validation

请注意,这些说明将安装TensorFlow的最新主分支 数据验证。如果要安装特定的分支(如发行版 分支),将-b <branchname>传递给git clone命令。在

3。构建pip包

然后,在项目根目录下运行以下命令:

sudo docker-compose build manylinux2010
sudo docker-compose run -e PYTHON_VERSION=${PYTHON_VERSION} manylinux2010

其中PYTHON_VERSION{35, 36, 37, 38}之一。在

将在dist/下生成一个轮子。在

4。安装pip包

pip install dist/*.whl

从源代码生成

1。先决条件

要编译和使用TFDV,需要设置一些先决条件。在

安装NumPy

如果您的系统上没有安装NumPy,请按照these directions进行安装。在

安装Bazel

如果您的系统上没有安装Bazel,请按照these directions立即安装。在

2。克隆TFDV存储库

git clone https://github.com/tensorflow/data-validation
cd data-validation

请注意,这些说明将安装TensorFlow的最新主分支 数据验证。如果要安装特定的分支(如发行版 分支),将-b <branchname>传递给git clone命令。在

3。构建pip包

TFDVwheel依赖于Python版本——构建pip包 适用于特定的Python版本,请使用该Python二进制文件运行:

python setup.py bdist_wheel

您可以在dist子目录中找到生成的.whl文件。在

4。安装pip包

pip install dist/*.whl

支持的平台

TFDV在以下64位操作系统上进行测试:

  • macOS 10.14.6(Mojave)或更高版本。在
  • Ubuntu 16.04或更高版本。在
  • Windows 7或更高版本。在

显著的依赖关系

需要TensorFlow。在

Apache Beam是必需的;这是高效的方式 支持分布式计算。默认情况下,apachebeam在本地运行 模式,但也可以在分布式模式下运行,使用 Google Cloud Dataflow和其他Apache 梁 runners。在

Apache Arrow也是必需的。TFDV使用箭头 在内部表示数据,以便使用矢量化numpy函数。在

兼容版本

在下表显示了 彼此兼容。这是由我们的测试框架决定的,但是 其他未经测试的组合也可以使用。在

tensorflow-data-validationapache-beam[gcp]pyarrowtensorflowtensorflow-metadatatensorflow-transformtfx-bsl
GitHub master2.25.00.17.0nightly (1.x/2.x)0.25.00.25.00.25.0
0.25.02.25.00.17.01.15 / 2.30.25.00.25.00.25.0
0.24.12.24.00.17.01.15 / 2.30.24.00.24.10.24.1
0.24.02.23.00.17.01.15 / 2.30.24.00.24.00.24.0
0.23.12.24.00.17.01.15 / 2.30.23.00.23.00.23.0
0.23.02.23.00.17.01.15 / 2.30.23.00.23.00.23.0
0.22.22.20.00.16.01.15 / 2.20.22.00.22.00.22.1
0.22.12.20.00.16.01.15 / 2.20.22.00.22.00.22.1
0.22.02.20.00.16.01.15 / 2.20.22.00.22.00.22.0
0.21.52.17.00.15.01.15 / 2.10.21.00.21.10.21.3
0.21.42.17.00.15.01.15 / 2.10.21.00.21.10.21.3
0.21.22.17.00.15.01.15 / 2.10.21.00.21.00.21.0
0.21.12.17.00.15.01.15 / 2.10.21.00.21.00.21.0
0.21.02.17.00.15.01.15 / 2.10.21.00.21.00.21.0
0.15.02.16.00.14.01.15 / 2.00.15.00.15.00.15.0
0.14.12.14.00.14.01.140.14.00.14.0n/a
0.14.02.14.00.14.01.140.14.00.14.0n/a
0.13.12.11.0n/a1.130.12.10.13.0n/a
0.13.02.11.0n/a1.130.12.10.13.0n/a
0.12.02.10.0n/a1.120.12.10.12.0n/a
0.11.02.8.0n/a1.110.9.00.11.0n/a
0.9.02.6.0n/a1.9n/an/an/a

问题

有关使用TF数据验证的任何问题,请直接联系 Stack Overflow使用 tensorflow-data-validation 标签。在

链接

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
继承如何将这个Java接口和继承结构转换为Golang?   java set callout image mapbox 安卓   java无法访问Android Studio中的XML表单主活动   java将结果集中的varchar放入ArrayList   java应用程序引发所有访问的facebook OAuth异常   java如何使用TestNG在两个不同的浏览器中并行运行两个测试方法?   java操作栏上下文菜单   java Javafx将标签绑定到StringProperty的位置   java如何正确初始化JNA中“Structure”中的数组字段?   如何通过读取Java中的URL来知道图像是否存在?   java如何在Android 4.0中从HttpClient获取响应   scala是一款带有嵌入式java的独立播放应用程序   为什么我的动画第一次播放时不流畅?   java我在寻找什么样的构造函数和访问修饰符组合?   java在给出这个时间表的情况下,我如何判断时间复杂度?