将12000个文件导入一个选项卡

2024-10-06 11:17:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要为我的项目设置一个流媒体环境。 下一个是数据集:http://research.microsoft.com/pubs/152883/User_guide_T-drive.pdf

我计划使用PostgreSQL和apachekafka作为源代码,然后使用apachespark或Flink连接到Kafka,但是问题是数据集大约有10000个文本文件。你知道吗

所以,问题是什么是将大约10000个文件(每个文件大约500行)导入一个表的最有效/最优雅的方法。你知道吗

目前,我已经尝试了python脚本和psycopg2executemany方法(超慢)以及Apache FLink Job和JDBC connector(速度很快,但不知道如何在一个作业中迭代10000多个文件)。你知道吗


Tags: 文件数据项目方法comhttp环境pdf