使用multiLine选项和编码选项阅读CSV

2条回答

网友

1楼 · 编辑于 2024-06-02 12:17:26

根据我的研究，当我们在azuredatatricks中读取csv文件时，它不支持选项多行。所以我建议你更新你的代码如下。在

df= spark.read.format('csv').options(header='true',inferSchema='false',delimiter='\t',charset='SJIS').load('/FileStore/tables/test.csv')

网友

2楼 · 编辑于 2024-06-02 12:17:26

不幸的是，不能同时使用“multiline”和“charset”，如果一起使用，则编码将设置为默认值。在

Azure Databricks字符集：默认为UTF-8，但可以设置为其他有效的字符集名称。在

为了清楚地解释这一点，我在输入文件中以编码SJIS签名“Cash+邃｢signatureﾂｮ”作为列“签名”的示例。在

如果使用multiline=true和encoding/charset to “SJIS”，则这是预期的行为，这将返回与default charset UTF-8相同的输出。在

默认值：字符集“UTF-8”

编码/字符集为“SJIS”：

希望这有帮助。在