使用python在超级计算机上运行脚本的多重处理

2024-06-16 15:25:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试运行两个python脚本,如下所述

此代码旨在从文件的特定URL下载数据

年份=[“2013年”、“2014年”、“2018年”、“2019年](以年份为单位):代码(年份)

在这种情况下,代码是下载功能。我想下载多年的数据。在普通电脑上,每年下载大约需要26小时

此代码用于处理从上述代码下载的数据。在执行此代码之前,上面的代码应该已经执行完毕

年份=[“2013年”、“2014年”、“2018年”、“2019年](以年为单位):数据(年)

在这种情况下,数据是数据处理功能。我想下载多年的数据。在普通电脑上,每年下载大约需要24小时

因此,我可以访问一台超级计算机,它可以让我使用10个节点,每个节点有36个核,总计360个核,一次可以运行4个作业,时间长达24小时

我打算在队列中运行两个作业,即第一个下载数据,第二个作业处理数据。我打算使用多个核心和节点,以最佳方式减少下载和处理每年数据的执行时间。我被告知需要将多个核心和节点的使用集成到实际代码中

如果您能给我一些建议,告诉我如何根据可用的资源最小化执行时间,以及如何在代码中实现它,我将不胜感激。我查看了多处理库,但未能完全实现它

数据从下面的链接下载。drive.google.com/open?id=1TdiPuIjj7u-arACMPh5yVeegcJ-y3fLr每年的数据约为6 GBs,我认为下载时间太长,因为代码必须检查每个URL是否有效,并且每年要通过大约100000个URL。我希望使用这台超级计算机能让我在一年的时间里同时下载所有的数据。下载代码。drive.google.com/open?id=1TdiPuIjj7u-arACMPh5yVeegcJ-y3fLr

数据处理代码只是通过将数据从转换为csv文件,然后使用pandas应用过滤器和阈值来处理数据。我希望能同时处理所有这些年。代码花费的时间太长,仅仅是因为它处理了大量文件,比如每年大约100000个文件。我希望能在超级计算机上同时处理所有的数据


Tags: 数据代码功能url核心节点作业时间