我正在使用pyspark将csv文件加载到postgresql中。我在输入文件中有一条记录,如下所示-
Id,dept,city,name,country,state
1234,ABC,dallas,markhenry\,USA,texas
当我将其加载到postgresql数据库中时,它会像这样加载,这是不正确的-
Id | dept| city | name | country | state
1234 | ABC | dallas | markhenry,USA | texas | null
postgresdb中的正确输出应为-
Id | dept| city | name | country | state
1234 | ABC | dallas | markhenry | USA | texas
我正在阅读下面的文件-
input_df = spark.read.format("csv").option("quote", "\"").option("escape", "\"").option("header",
"true").load(filepath)
是否有一种方法可以修改代码来处理数据中的反斜杠()。提前谢谢
“quote”选项的目的是指定一个quote字符,该字符包装整个列的值。不确定这里是否需要这样做,但可以使用
regexp_replace
函数删除特定字符(只需按原样选择其他所有字符,并以这种方式修改name
列)输出:
相关问题 更多 >
编程相关推荐