为apache_beam Python SDK版本>2.24实现自定义编码器

branchessap_data = (p | 'ReadData branchessap' >> beam.io.ReadFromText(branchessap, skip_header_lines =1, coder=IgnoreUnicode()) | 'SplitData branchessap' >> beam.Map(lambda x: x.split('|')) | 'FormatToDict branchessap' >> beam.Map(lambda x: {"branch_id": x[0], "branch_sap": x[1], "branch_name": x[2], "branch_profile": x[3]}) | 'ChangeDataType branchessap' >> beam.Map(convert_types_branchessap) | 'DELETE UNWANTED DATA BRANCHESSAP' >> beam.Map(del_unwanted_cols_branchessap) )

# CLASS CHANGE FRENCH CHARACTERS class IgnoreUnicode(Coder): def encode(self, value): return value.encode('utf-8','ignore') def decode(self, value): return value.decode('utf-8','ignore') def is_deterministic(self): return True

1条回答

网友

1楼 · 发布于 2024-09-29 23:30:58

看起来这是一种不幸的组合，它将源的重组方式与在__main__中定义PCoder结合在一起。我建议两种解决方法中的一种：

（1）将IgnoreUnicode的定义移动到导入的适当模块，而不是__main__，或者

（2）使用ByteCoder读取文件，然后使用

`beam.Map(lambda line: line.decode('utf-8','ignore'))`.

（就个人而言，我更喜欢后者，因为最好不要让编码人员对数据进行变异。）

相关问题更多 >

编程相关推荐

热门问题

热门文章