如何使用 PySpark 的 RegexTokenizer 删除字符串中的数字？

1条回答

网友

1楼 · 发布于 2024-09-24 02:24:34

RegexTokenizer使用regex模式作为分隔符将字符串拆分为标记。在

您可以通过对转换后的列应用pyspark.sql.functions.array_join函数来连接数组中的单词。在

from pyspark.ml.feature import RegexTokenizer
from pyspark.sql.functions import array_join
from pyspark.sql import SparkSession

spark = SparkSession\
            .builder\
            .appName("Pattern Replacement Example")\
            .getOrCreate()
df = spark.createDataFrame([('123abc 122323232',)],['pattern'])
regexTokenizer = RegexTokenizer(inputCol="pattern", outputCol="words", pattern="[0-9]{5,}")
df_words = regexTokenizer.transform(df)

df_pattern_removed = df_words.select(array_join("words", '').alias("pattern_removed"), "pattern", "words").show(truncate=False)

print(df_pattern_removed.show(truncate=False))

我建议尽可能使用sparksql，尤其是pyspark.sql.functions.regexp_replace函数。在

^{pr2}$

请注意，这与一个字符串匹配，该字符串包含0-9三次后接a-z三次的字符。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用 PySpark 的 RegexTokenizer 删除字符串中的数字？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >