你能给我一些关于设计火花流源的建议吗?

2024-10-02 22:29:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我会尽量描述我的要求。但如果还不清楚,请随时问我。你知道吗

环境

我有5个节点(将来会更多)。他们每5分钟生成一个大的CSV文件(大约1到2GB)。我需要使用apachesparkstream在五分钟内处理这些CSV文件。所以这5个文件是我的输入数据流源。你知道吗

我打算做什么

我计划使用如下textFileStream:

ssc.textFileStream(dataDirectory)

每隔5分钟,我会把那些CSV文件放在HDFS的一个目录中。然后使用上述函数生成inputDStream。你知道吗

上述方法的问题

textFileStream需要一个完整的文件而不是5个文件。我不知道如何在HDFS中合并文件

问题

  1. 你能告诉我如何用python合并hdfs中的文件吗?你知道吗
  2. 你有什么比我的方法更好的建议吗?也请给我一些建议

Tags: 文件csv方法目录节点环境hdfs建议
1条回答
网友
1楼 · 发布于 2024-10-02 22:29:21

您总是可以使用通配符读取目录中的文件。 这应该不是问题。这意味着在任何给定的时间,您的数据流的RDD都是该给定时间所有文件的合并结果。你知道吗

就方法而言,你的方法很简单而且有效。你知道吗

注意:唯一需要注意的是CSV文件本身的原子性。您的文件应该以mv而不是copy的形式转到文件夹(您正在监视传入文件)

谢谢 玛纳斯

相关问题 更多 >