在pyspark dataframe中用双引号替换单引号

2条回答

网友

1楼 · 编辑于 2024-10-01 09:18:57

在写入输出之前，可以使用regexp_replace将所有列中的单引号替换为双引号：

import pyspark.sql.functions as F

df2 = df.select([F.regexp_replace(c, "'", '"').alias(c) for c in df.columns])

# then write output
# df2.coalesce(1).write(...)

网友

2楼 · 编辑于 2024-10-01 09:18:57

使用^{}

from pyspark.sql.functions import *

data_list = [(1, "'Name 1'"), (2, "'Name 2' and 'Something'")]
df = spark.createDataFrame(data = data_list, schema = ["ID", "my_col"])
# + -+          +
# | ID|              my_col|
# + -+          +
# |  1|            'Name 1'|
# |  2|'Name 2' and 'Som...|
# + -+          +

df.withColumn('my_col', translate('my_col', "'", '"')).show()
# + -+          +
# | ID|              my_col|
# + -+          +
# |  1|            "Name 1"|
# |  2|"Name 2" and "Som...|
# + -+          +

这将在my_col列中用双引号替换所有出现的单引号字符

编程相关推荐

java在BFS中创建接受用户输入的树
chef:：Exception:：RecipeNotFound找不到cookbook java的配方默认值
java for循环算法不更新变量
java如何启用以cookie为条件的按钮？
maven项目中的java获取错误：FirefoxDriver无法解析为类型
瓦丁不能铸造java。util。集合$EmptySet到java。util。哈希集
java视图页面未显示从控制器传递的数据
java数据输入流是否跳过字符？
java Basic SpringMVC+Tomcat问题
java JFreeChart为时间创建自定义值轴

相关问题更多 >

编程相关推荐

热门问题

热门文章

在pyspark dataframe中用双引号替换单引号

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >