要基于具有分隔符(“”)的字符串列创建一个新列,并在使用python/pyspark时跳过拆分(如果后面有数字):
输入:
"511 520 NA 611"
"322 GA 620"
"3 321"
"334 344"
预期输出:
+Column | +new column
"511 520 NA 611" | [511,520,NA 611]
"322 GA 620" | [322,GA 620]
"3 321" | [3,321]
"334 344" | [334,344]
试试看:
data = data.withColumn( "newcolumn", split(col("column"), "\s"))
正则表达式上的条件似乎有效,但我不知道如何使用它
目前没有回答
相关问题 更多 >
编程相关推荐