调整和过滤PySpark RDD同时进行

elm = elm.filter(lambda x: detectNone(x)) # checks if x[-1][1] is None elm = elm.map(formatElm) # where formatElm is a function that replaces None with tuple of empty strings and flattens the tuple.

1条回答

网友

1楼 · 发布于 2024-09-27 23:21:51

I think combining two operations into one may help,

不会的。但如果你真的坚持这样做，那么flatMap：

rdd = sc.parallelize([((1, 2), ((3, 4), (5, 6))), ((1, 2), ((3, 4), None))])


def detect_and_format(row):
    x, (y, z) = row
    return [x + y + (("", ""), )] if z is None else []

# [(1, 2, 3, 4, ('', ''))]

编程相关推荐

将Java中的对象列表序列化为json
在同一Play Framework项目中同时使用Ebean和JPA的java
oop如何在整个Java项目中共享API密钥
java ADT Eclipse SDK故障未找到DDM
扫描程序中变量的递归Java输入值未应用于方法中的变量
java将空格转换为命令行类型的空格
JavaSpring，如何决定客户机应该使用哪个服务？
java致命异常：main（Android标准）
java编译错误是因为类型检查还是三元运算符？
java Sikuli+Webdriver:getting error x.png看起来像一个文件，但在磁盘上找不到。假设是文本

相关问题更多 >

编程相关推荐

热门问题

热门文章

调整和过滤PySpark RDD同时进行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >