将12000个文件导入一个选项卡

2024-10-06 11:17:31 发布

男 | 程序猿一只，喜欢编程写python代码。

我需要为我的项目设置一个流媒体环境。下一个是数据集：http://research.microsoft.com/pubs/152883/User_guide_T-drive.pdf

我计划使用PostgreSQL和apachekafka作为源代码，然后使用apachespark或Flink连接到Kafka，但是问题是数据集大约有10000个文本文件。你知道吗

所以，问题是什么是将大约10000个文件（每个文件大约500行）导入一个表的最有效/最优雅的方法。你知道吗

目前，我已经尝试了python脚本和psycopg2和executemany方法（超慢）以及Apache FLink Job和JDBC connector（速度很快，但不知道如何在一个作业中迭代10000多个文件）。你知道吗

Tags：文件数据项目方法 com http 环境 pdf

1条回答

网友

1楼 · 发布于 2024-10-06 11:17:31

一个简单的解决方案是使用spark读取文件夹，打开每个分区的odbc连接，迭代并写入每一行。你知道吗