Pypark处理文本fi

1条回答

网友

1楼 · 发布于 2024-09-29 01:29:13

试试这样的方法（平面图是诀窍）：

input=[(u'id1', u'11|12|13|14|15|16|17|18|,21|22|23|24|25|26|27|28|'), (u'id2', u'31|32|33|34|35|36|37|38|,41|42|43|44|45|46|47|28|')]
inputRdd=sc.parallelize(input)

def splitAtPipe(value):
  valueParts=value.split('|')
  return (valueParts[6]+"/"+valueParts[4],valueParts[5])

inputRdd.flatMapValues(lambda data: data.split(","))
  .mapValues(splitAtPipe)
  .map(lambda (idx, (data1, data2)): (idx, data1, data2))
  .collect()

# Result
# [(u'id1', u'17/15', u'16'), (u'id1', u'27/25', u'26'), (u'id2', u'37/35', u'36'), (u'id2', u'47/45', u'46')]

编程相关推荐

无法使用windows x86上的Java验证在linux x64上签名的数字签名
java Firebase通过键从子级检索数据
Java缓存网络文件
java独立jdbcpool实现内存泄漏
java为什么MVN在成功构建时返回1？
java maven正在抛出BoundsException数组
Java：是否可以有“嵌套”映射方法（Java.util.stream）？
java无法使用GSON解析JSON文件
java Spring Groovy集成
java使用SAX解析器，需要所有xml元素（在特定元素下）作为字符串

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pypark处理文本fi

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >