我想使用PySpark的regexetkenizer从DataFrame列中删除5位或更多位数的数字。我可以使用下面的代码提取这些数字,但是有人知道我如何删除它们吗?在
我的代码:
regexTokenizer = RegexTokenizer(inputCol="description", outputCol="tokenized_description", gaps=False,pattern="[0-9]{5,}")
如果字符串是“123abc122323232”,我希望它删除122323232并变成“123abc”
RegexTokenizer
使用regex模式作为分隔符将字符串拆分为标记。在您可以通过对转换后的列应用
pyspark.sql.functions.array_join
函数来连接数组中的单词。在我建议尽可能使用sparksql,尤其是
^{pr2}$pyspark.sql.functions.regexp_replace
函数。在请注意,这与一个字符串匹配,该字符串包含
0-9
三次后接a-z
三次的字符。在相关问题 更多 >
编程相关推荐