Python/PySpark并行处理examp

2024-06-25 07:05:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我很难理解如何在python脚本中利用并行处理的能力。在

我有一个十亿行的食品数据库,例如:

date,item,category,number_sold
2017-01-01,bagel,bread,10
2017-03-03,skittles,candy,5

有100个类别。(面包、糖果等)我的剧本:

^{pr2}$

我需要在迭代循环中添加什么来触发多重处理?Pypark会自动完成吗?当我只使用Pandas运行这个脚本时,脚本在等待查询每个类别子集时被挂起(不执行任何操作)。理想情况下,流程应该过滤一个类别的数据帧,同时为另一个类别运行计算。在

提前谢谢!在


Tags: 脚本数据库食品利用numberdate能力item
1条回答
网友
1楼 · 发布于 2024-06-25 07:05:59

首先列出短列表项(步骤2),然后在单独的线程中处理它们。在python中实现多线程非常容易。把每个报告写在一个单独的文件中,最后把所有的文件合并成最终的报告。在

相关问题 更多 >