在python中使用表模式的实用程序库
dataflows-aws的Python项目详细描述
数据流aws
使用aws的数据流处理器
功能
dump_to_s3
处理器change_acl_on_s3
处理器
内容
开始
安装
包使用语义版本控制。这意味着主要版本可能包括破坏性更改。建议在setup/requirements
文件中指定package
版本范围,例如package>=1.0,<2.0
。
$ pip install dataflows-aws
示例
这些处理器必须用作数据流的一部分。例如:
flow=Flow(load('data/data.csv'),dump_to_s3(bucket=bucket,acl='private',path='my/datapackage',endpoint_url=os.environ['S3_ENDPOINT_URL'],),)flow.process()
文档
卸载到S3
将数据包保存到aws s3。
参数
bucket
-存储数据包的存储桶的名称(应该已经创建!)acl
-acl提供上传的文件。默认值为“public read”(有关详细信息,请参见boto3 docs)。path
-数据包的路径(键/前缀)。可能包含可用于datapackage.json
的格式字符串,例如:my/example/path/{owner}/{name}/{version}
content_type
-在s3中存储文件时使用的内容类型。默认为text/plain(通常s3默认为binary/octet stream,但我们更喜欢text/plain)。endpoint_url
-允许使用s3兼容服务的api端点(例如,'https://ams3.digitaloceanspaces.com')
在s3上更改acl
使用给定路径aka前缀更改给定bucket中对象的acl。
参数
bucket
-存储对象的存储桶的名称acl
-可用选项'private'|'public-read'|'public-read-write'|'authenticated-read'|'aws-exec-read'|'bucket-owner-read'|'bucket-owner-full-control'
path
-数据包的路径(键/前缀)。endpoint_url
-允许使用s3兼容服务的api端点(例如,'https://ams3.digitaloceanspaces.com')
贡献
该项目遵循Open Knowledge International coding standards。
建议的入门方法是创建和激活项目虚拟环境。 要将包和开发依赖项安装到活动环境中,请执行以下操作:
$ make install
要使用绒布和覆盖率运行测试:
$ make test
对于linting,使用pylama
(在pylama.ini
中配置)。在这个阶段它已经
安装到您的环境中,可以与更细粒度的控件分开使用
如文档-https://pylama.readthedocs.io/en/latest/中所述。
例如,按错误类型对结果排序:
$ pylama --sort <path>
对于测试,使用tox
(在tox.ini
中配置)。
它已经安装到您的环境中,可以与文档-https://testrun.org/tox/latest/中描述的更细粒度的控件分开使用。
例如,根据python 2环境检查测试子集,增加了详细程度。
--
之后的所有位置参数和选项都将传递给py.test
:
tox -e py37 -- -v tests/<path>
在引擎盖下tox
使用pytest
(在pytest.ini
中配置),coverage
以及mock
包。这些软件包仅在毒物环境中可用。
更改日志
这里只描述了打破和最重要的变化。所有发布版本的完整变更日志和文档可以在格式良好的commit history中找到。
v0.x
- 初始处理器实现