使用pysparksql将sqoop压缩的snapy数据文件读取到数据fram中

2024-09-24 22:19:38 发布

男 | 程序猿一只，喜欢编程写python代码。

我使用的是ClouderaVM 5.8 读取sqoop导入的Avro文件时出错，该文件使用snappy编解码器压缩

conf = (SparkConf().setMaster("local").setAppName("anoterApp1").set("spark.executor.memory", "1g"))
sc=SparkContext(conf= conf)
sqlc = SQLContext(sc)
df = sqlc.read.format("com.databricks.spark.avro").load("/sqoopimported/avro/compressed/directorypath")

getting following error: py4j.protocol.Py4JJavaError: An error occurred while calling o266.load.

如果不使用snappy编解码器压缩文件，代码可以正常工作

Tags：文件 conf 编解码器 load error avro spark sc

1条回答

网友

1楼 · 发布于 2024-09-24 22:19:38

尝试添加此配置

 spark.conf.set("spark.sql.avro.compression.codec", "snappy")

这个文件也很有用

https://docs.databricks.com/spark/latest/data-sources/read-avro.html

使用pysparksql将sqoop压缩的snapy数据文件读取到数据fram中

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用pysparksql将sqoop压缩的snapy数据文件读取到数据fram中

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >