使用pysparksql将sqoop压缩的snapy数据文件读取到数据fram中

2024-09-24 22:19:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用的是ClouderaVM 5.8 读取sqoop导入的Avro文件时出错,该文件使用snappy编解码器压缩

conf = (SparkConf().setMaster("local").setAppName("anoterApp1").set("spark.executor.memory", "1g"))
sc=SparkContext(conf= conf)
sqlc = SQLContext(sc)
df = sqlc.read.format("com.databricks.spark.avro").load("/sqoopimported/avro/compressed/directorypath")

getting following error: py4j.protocol.Py4JJavaError: An error occurred while calling o266.load.

如果不使用snappy编解码器压缩文件,代码可以正常工作


Tags: 文件conf编解码器loaderroravrosparksc