在pythonluigi上调度大量作业

1条回答

网友

1楼 · 发布于 2024-09-30 06:22:24

我建议不要在文件超过1k时为每个文件创建单独的任务，创建一个运行在这些文件目录上的批处理任务可能会更幸运。然后，此任务可以使用多处理来利用对处理函数的并行调用。在

from multiprocessing import Pool, cpu_count
import os

class TestTask(luigi.WrapperTask):
    inglob = luigi.Parameter(default='/1002/*.gz')
    outdir = luigi.Parameter(default='/1002-out/')
    tmpdir = luigi.Parameter(default='/1002-tmp/'

    def extract_file(filename):
        # extract file to self.tempdir not shown

    def output(self):
        return luigi.LocalTarget(self.outdir)

    def run(self):
        os.makedirs(self.tempdir)
        p = Pool(cpu_count())
        p.map(extract_file, glob(self.inglob))
        os.rename(self.tempdir, self.outdir)

编程相关推荐

java面试类问题
如何使用java中的opencsv CSVWriter在csv中写入对象列表
java预期输出的值未显示
JAXB循环错误的java检测行/代码
jakarta ee获取servlet中java ee项目的绝对路径
Java I/O文件程序
Java 6上载文件检查带注释的MimeType
java如何让izpack安装程序正确限制基于OS体系结构的文件集
java如何使用For循环将不同LiearLayout中的名称与DB分离
无根模式的java验证XML

相关问题更多 >

编程相关推荐

热门问题

热门文章

在pythonluigi上调度大量作业

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >