用于探索和验证机器学习数据的库。
tensorflow-data-validation的Python项目详细描述
TensorFlow数据验证
TensorFlow Data Validation(TFDV)是一个用于探索和验证的库 机器学习数据。它的设计是高度可扩展的 以及与TensorFlow和TensorFlow Extended (TFX)一起工作。在
TF数据验证包括:
- 训练和测试数据汇总统计的可伸缩计算。在
- 与查看器集成,以查看数据分布和统计信息 作为特征对的分面比较(Facets)
- 自动data-schema 描述数据期望的生成 比如所需的值、范围和词汇表
- 帮助您检查架构的架构查看器。在
- 异常检测以识别anomalies, 比如缺少特征, 超出范围的值或错误的要素类型,仅举几个例子。在
- 一个异常查看器,以便您可以看到哪些特征具有异常和 了解更多以纠正这些错误。在
有关使用TFDV的说明,请参阅get started guide 试试example notebook。 TFDV中实现的一些技术在 technical paper published in SysML'19。在
注意:TFDV在1.0版之前可能向后不兼容。在
从PyPI安装
安装TFDV的推荐方法是使用 PyPI package:
pip install tensorflow-data-validation
夜间套餐
TFDV还在上的https://pypi-nightly.tensorflow.org托管夜间包 谷歌云。要安装最新的夜间软件包,请使用以下命令 命令:
^{pr2}$这将为TFDV的主要依赖项安装夜间包,例如 作为TensorFlow转换(TFT)、TFX基本共享库(TFX-BSL)、TensorFlow 元数据(TFMD)。在
使用Docker构建
这是在Linux下构建TFDV的推荐方法,并且是连续的 在谷歌测试过。在
1。安装Docker
请首先按照以下说明安装docker
和{
2。克隆TFDV存储库
git clone https://github.com/tensorflow/data-validation
cd data-validation
请注意,这些说明将安装TensorFlow的最新主分支
数据验证。如果要安装特定的分支(如发行版
分支),将-b <branchname>
传递给git clone
命令。在
3。构建pip包
然后,在项目根目录下运行以下命令:
sudo docker-compose build manylinux2010 sudo docker-compose run -e PYTHON_VERSION=${PYTHON_VERSION} manylinux2010
其中PYTHON_VERSION
是{35, 36, 37, 38}
之一。在
将在dist/
下生成一个轮子。在
4。安装pip包
pip install dist/*.whl
从源代码生成
1。先决条件
要编译和使用TFDV,需要设置一些先决条件。在
安装NumPy
如果您的系统上没有安装NumPy,请按照these directions进行安装。在
安装Bazel
如果您的系统上没有安装Bazel,请按照these directions立即安装。在
2。克隆TFDV存储库
git clone https://github.com/tensorflow/data-validation
cd data-validation
请注意,这些说明将安装TensorFlow的最新主分支
数据验证。如果要安装特定的分支(如发行版
分支),将-b <branchname>
传递给git clone
命令。在
3。构建pip包
TFDV
wheel依赖于Python版本——构建pip包
适用于特定的Python版本,请使用该Python二进制文件运行:
python setup.py bdist_wheel
您可以在dist
子目录中找到生成的.whl
文件。在
4。安装pip包
pip install dist/*.whl
支持的平台
TFDV在以下64位操作系统上进行测试:
- macOS 10.14.6(Mojave)或更高版本。在
- Ubuntu 16.04或更高版本。在
- Windows 7或更高版本。在
显著的依赖关系
需要TensorFlow。在
Apache Beam是必需的;这是高效的方式 支持分布式计算。默认情况下,apachebeam在本地运行 模式,但也可以在分布式模式下运行,使用 Google Cloud Dataflow和其他Apache 梁 runners。在
Apache Arrow也是必需的。TFDV使用箭头 在内部表示数据,以便使用矢量化numpy函数。在
兼容版本
在下表显示了 彼此兼容。这是由我们的测试框架决定的,但是 其他未经测试的组合也可以使用。在
tensorflow-data-validation | apache-beam[gcp] | pyarrow | tensorflow | tensorflow-metadata | tensorflow-transform | tfx-bsl |
---|---|---|---|---|---|---|
GitHub master | 2.25.0 | 0.17.0 | nightly (1.x/2.x) | 0.25.0 | 0.25.0 | 0.25.0 |
0.25.0 | 2.25.0 | 0.17.0 | 1.15 / 2.3 | 0.25.0 | 0.25.0 | 0.25.0 |
0.24.1 | 2.24.0 | 0.17.0 | 1.15 / 2.3 | 0.24.0 | 0.24.1 | 0.24.1 |
0.24.0 | 2.23.0 | 0.17.0 | 1.15 / 2.3 | 0.24.0 | 0.24.0 | 0.24.0 |
0.23.1 | 2.24.0 | 0.17.0 | 1.15 / 2.3 | 0.23.0 | 0.23.0 | 0.23.0 |
0.23.0 | 2.23.0 | 0.17.0 | 1.15 / 2.3 | 0.23.0 | 0.23.0 | 0.23.0 |
0.22.2 | 2.20.0 | 0.16.0 | 1.15 / 2.2 | 0.22.0 | 0.22.0 | 0.22.1 |
0.22.1 | 2.20.0 | 0.16.0 | 1.15 / 2.2 | 0.22.0 | 0.22.0 | 0.22.1 |
0.22.0 | 2.20.0 | 0.16.0 | 1.15 / 2.2 | 0.22.0 | 0.22.0 | 0.22.0 |
0.21.5 | 2.17.0 | 0.15.0 | 1.15 / 2.1 | 0.21.0 | 0.21.1 | 0.21.3 |
0.21.4 | 2.17.0 | 0.15.0 | 1.15 / 2.1 | 0.21.0 | 0.21.1 | 0.21.3 |
0.21.2 | 2.17.0 | 0.15.0 | 1.15 / 2.1 | 0.21.0 | 0.21.0 | 0.21.0 |
0.21.1 | 2.17.0 | 0.15.0 | 1.15 / 2.1 | 0.21.0 | 0.21.0 | 0.21.0 |
0.21.0 | 2.17.0 | 0.15.0 | 1.15 / 2.1 | 0.21.0 | 0.21.0 | 0.21.0 |
0.15.0 | 2.16.0 | 0.14.0 | 1.15 / 2.0 | 0.15.0 | 0.15.0 | 0.15.0 |
0.14.1 | 2.14.0 | 0.14.0 | 1.14 | 0.14.0 | 0.14.0 | n/a |
0.14.0 | 2.14.0 | 0.14.0 | 1.14 | 0.14.0 | 0.14.0 | n/a |
0.13.1 | 2.11.0 | n/a | 1.13 | 0.12.1 | 0.13.0 | n/a |
0.13.0 | 2.11.0 | n/a | 1.13 | 0.12.1 | 0.13.0 | n/a |
0.12.0 | 2.10.0 | n/a | 1.12 | 0.12.1 | 0.12.0 | n/a |
0.11.0 | 2.8.0 | n/a | 1.11 | 0.9.0 | 0.11.0 | n/a |
0.9.0 | 2.6.0 | n/a | 1.9 | n/a | n/a | n/a |
问题
有关使用TF数据验证的任何问题,请直接联系 Stack Overflow使用 tensorflow-data-validation 标签。在
链接
- TensorFlow Data Validation Getting Started Guide
- TensorFlow Data Validation Notebook
- TensorFlow Data Validation API Documentation
- TensorFlow Data Validation Blog Post
- TensorFlow Data Validation PyPI
- TensorFlow Data Validation Paper
- TensorFlow Data Validation Slides
- 项目
标签: