如果后面有一个数字,则跳过拆分(“”),以使用python/Pypark获取数组

2024-10-02 12:37:02 发布

您现在位置:Python中文网/ 问答频道 /正文

要基于具有分隔符(“”)的字符串列创建一个新列,并在使用python/pyspark时跳过拆分(如果后面有数字):

输入:

"511 520 NA 611"
"322 GA 620"  
"3 321"
"334 344"

预期输出:

+Column           | +new column
"511 520 NA 611" | [511,520,NA 611]
"322 GA 620"      | [322,GA 620]
"3 321"         | [3,321]
"334 344"         | [334,344]

试试看:

data = data.withColumn( "newcolumn", split(col("column"), "\s"))

正则表达式上的条件似乎有效,但我不知道如何使用它


Tags: 字符串newdatacolumn数字col条件pyspark

热门问题