如何使用spark函数PySp将字符串转换为列表

2条回答

网友

1楼 · 编辑于 2024-09-29 18:55:26

如果您不想转到dataframes，那么可以对您创建的rdd数据使用regex replace和split函数。在

如果你有数据作为

x = "[{somevalues, id:1, name:'xyz'}, {address:Some Value}, {somevalue}]"

然后您可以创建rdd并使用regex replace和split函数作为

^{pr2}$

使用flatMap以便拆分的数据以单独的行形式出现在中

^{3}$

我希望答案是有帮助的

注意：如果你想用dataframe的方式来解决问题，那么你可以从我的other answer那里得到想法

网友

2楼 · 编辑于 2024-09-29 18:55:26

可以使用regexp_replace删除方括号，然后在逗号上拆分。一开始，我认为你需要做一些特别的事情，以避免在花括号内的逗号上分裂。但是spark似乎自动避免了sql。例如，Zeppelin中的以下查询

%sql
select split(regexp_replace("[{somevalues, id:1, name:'xyz'}, {address:Some Value}, {somevalue}]",  "[\\[\\] ]", ""), ",")

给了我

^{pr2}$

这就是你想要的。在

如果使用数据帧，则可以使用withColumn以这种方式添加列。由于某些原因，如果大括号内的逗号被拆分，您可以像下面的post-Regex: match only outside parenthesis (so that the text isn't split within parenthesis)?那样做更多的regex foo。在

希望这是有道理的。我不确定您是否在使用数据帧，但建议您使用较低级别的RDDAPI。在