我需要为我的项目设置一个流媒体环境。 下一个是数据集:http://research.microsoft.com/pubs/152883/User_guide_T-drive.pdf
我计划使用PostgreSQL和apachekafka作为源代码,然后使用apachespark或Flink连接到Kafka,但是问题是数据集大约有10000个文本文件。你知道吗
所以,问题是什么是将大约10000个文件(每个文件大约500行)导入一个表的最有效/最优雅的方法。你知道吗
目前,我已经尝试了python脚本和psycopg2和executemany方法(超慢)以及Apache FLink Job和JDBC connector(速度很快,但不知道如何在一个作业中迭代10000多个文件)。你知道吗
一个简单的解决方案是使用spark读取文件夹,打开每个分区的odbc连接,迭代并写入每一行。你知道吗
相关问题 更多 >
编程相关推荐