我很难理解如何在python脚本中利用并行处理的能力。在
我有一个十亿行的食品数据库,例如:
date,item,category,number_sold
2017-01-01,bagel,bread,10
2017-03-03,skittles,candy,5
有100个类别。(面包、糖果等)我的剧本:
^{pr2}$我需要在迭代循环中添加什么来触发多重处理?Pypark会自动完成吗?当我只使用Pandas运行这个脚本时,脚本在等待查询每个类别子集时被挂起(不执行任何操作)。理想情况下,流程应该过滤一个类别的数据帧,同时为另一个类别运行计算。在
提前谢谢!在
首先列出短列表项(步骤2),然后在单独的线程中处理它们。在python中实现多线程非常容易。把每个报告写在一个单独的文件中,最后把所有的文件合并成最终的报告。在
相关问题 更多 >
编程相关推荐