从文件创建输入变量的N个置换的PCollection最惯用的方法是什么？

2条回答

网友

1楼 · 编辑于 2024-06-26 14:42:24

让我重新表述一下我认为你在问什么，如果我错了，请纠正我：

在MATLAB文件中有一个矩阵V，需要读入该矩阵，然后运行模拟的N试验。在

编辑：FileBasedSource不能直接使用。我已经更正了下面的解释。

apachebeam有内置的PTransforms来读取许多文件格式，但没有MATLAB文件。您需要创建自己的源实现并读取转换。有很多基于FileBasedSource的例子，比如^{}和{a2}。在

Beam文档提供了实现新的I/O转换的技巧：https://beam.apache.org/documentation/io/authoring-overview/

如果与源代码解耦，则添加置换逻辑将更简单。如果试验次数N是静态的或在管道构建过程中已知的，则可以使用FlatMap和普通Python代码返回每个置换的iterable。所以你的逻辑看起来更像：

(p | 'read' >> ReadFromMatlab(file_name)
   | 'permute_v' >> beam.FlatMap(lambda x: permutation(x, N))
   | ...)

网友

2楼 · 编辑于 2024-06-26 14:42:24

要将矩阵从.mat文件加载到PCollection，请从beam.Create派生一个PTransform包装器scipy.io.loadmat：

class LoadMat(beam.Create):

    def __init__(self, file_name, mdict=None, appendmat=True, **kwargs):
        mat_dict = scipy.io.loadmat(file_name, mdict, appendmat, **kwargs)
        super(LoadMat, self).__init__([mat_dict])

按如下方式调用此转换：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章

从文件创建输入变量的N个置换的PCollection最惯用的方法是什么？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >