SparkPipelineFramework测试框架
sparkpipelineframework.testing的Python项目详细描述
Sp公司arkPipelineFramework.测试在
测试框架,它可以测试SparkPipelineFramework库,只需在运行转换器之前向安装程序提供输入文件,以及用于验证输出的输出文件
使用
- 创建一个类似于SparkPipelineFramework中库的文件夹结构的文件夹结构(测试框架就是这样找到要运行的转换器的)
- 创建一个输入文件夹并放入表示输入视图的文件。这些文件可以是csv、json或parquet
- (可选)创建一个input_schema文件夹,并放入要应用于上述视图的任何模式。这遵循Spark Json模式格式。在
- (可选)创建输出文件夹并放入表示所需输出视图的文件。这些文件可以是csv、json或parquet
- (可选)创建一个output_schema文件夹,并放入要应用于输出视图的任何架构
- 复制以下测试代码并将其放入此文件夹中的测试文件中
frompathlibimportPathfrompyspark.sqlimportSparkSessionfromspark_pipeline_framework_testing.test_runnerimportSparkPipelineFrameworkTestRunnerdeftest_folder(spark_session:SparkSession)->None:data_dir:Path=Path(__file__).parent.joinpath('./')SparkPipelineFrameworkTestRunner.run_tests(spark_session=spark_session,folder_path=data_dir)
- 现在运行这个测试。在
注意:测试也会在子文件夹中查找文件。在
示例
对于此处定义的转换器:https://github.com/imranq2/SparkPipelineFramework.Testing/tree/main/library/features/people/my_people_feature 你可以在这里找到测试:https://github.com/imranq2/SparkPipelineFramework.Testing/tree/main/tests/library/features/people/my_people_feature
发布新包
- 创建新版本
- GitHub操作应该自动启动并发布包
- 您可以在“操作”选项卡中查看状态
- 项目
标签: