Python/PySpark并行处理examp

2024-06-25 07:05:59 发布

男 | 程序猿一只，喜欢编程写python代码。

我很难理解如何在python脚本中利用并行处理的能力。在

我有一个十亿行的食品数据库，例如：

date,item,category,number_sold
2017-01-01,bagel,bread,10
2017-03-03,skittles,candy,5

有100个类别。（面包、糖果等）我的剧本：

^{pr2}$

我需要在迭代循环中添加什么来触发多重处理？Pypark会自动完成吗？当我只使用Pandas运行这个脚本时，脚本在等待查询每个类别子集时被挂起（不执行任何操作）。理想情况下，流程应该过滤一个类别的数据帧，同时为另一个类别运行计算。在

提前谢谢！在

Tags：脚本数据库食品利用 number date 能力 item

1条回答

网友

1楼 · 发布于 2024-06-25 07:05:59

首先列出短列表项（步骤2），然后在单独的线程中处理它们。在python中实现多线程非常容易。把每个报告写在一个单独的文件中，最后把所有的文件合并成最终的报告。在