hadoop中的数据沿袭报表

2024-09-29 22:36:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用pythondjango框架开发ELT工具。在

在这个工具中,我们可以安排作业并在apacheoozie中发布。在

我需要为每个作业实现数据沿袭报告。一般来说,我已经探讨过wiki中的“什么是数据沿袭”。在

我需要帮助-我应该如何实现这个数据沿袭?不用任何外部工具和apachefalcon。在


Tags: 工具数据框架报告作业wikiapacheoozieelt
1条回答
网友
1楼 · 发布于 2024-09-29 22:36:55

因为您使用的是pythondjango框架,并且正在使用Oozie进行大部分的作业调度,因此建议使用Falcon来使用沿袭跟踪。在hadoop生态系统中很容易使用和跟踪血统。在

但是,如果您不想使用ApacheFalcon,您可以始终实现任何图形数据库(Neo4J或TitanDB),并使用D3.js绘制图形。为此,您需要在GraphDB中以特定模式存储沿袭(graph)变量。一旦在GraphDB中设置了所有内容,就很容易编写d3java脚本来检索它们并绘制图形。在

你可以在这里阅读更多关于D3的信息:

http://chimera.labs.oreilly.com/books/1230000000345/index.html

相关问题 更多 >

    热门问题