在azure Databricks中,当我读取带有multiline = 'true'
和{multiline
选项spark使用其默认的encoding
,即UTF-8
,
但我的文件是SJIS
格式的。
有什么解决办法吗?谢谢。
这是我正在使用的代码,我正在使用pyspark。在
df= sqlContext.read.format('csv').options(header='true',inferSchema='false',delimiter='\t',encoding='SJIS',multiline='true').load('/mnt/Data/Data.tsv')
根据我的研究,当我们在azuredatatricks中读取csv文件时,它不支持选项多行。所以我建议你更新你的代码如下。在
有关详细信息,请参阅https://docs.databricks.com/data/data-sources/read-csv.html。
不幸的是,不能同时使用“multiline”和“charset”,如果一起使用,则编码将设置为默认值。在
Azure Databricks字符集:默认为UTF-8,但可以设置为其他有效的字符集名称。在
为了清楚地解释这一点,我在输入文件中以编码SJIS签名“Cash+邃「signatureツョ”作为列“签名”的示例。在
如果使用
multiline=true
和encoding/charset to “SJIS”
,则这是预期的行为,这将返回与default charset UTF-8
相同的输出。在默认值:字符集“UTF-8”
编码/字符集为“SJIS”:
希望这有帮助。在
相关问题 更多 >
编程相关推荐