Pyspark配置Amazon Redshift JDBC j

2024-10-02 00:35:16 发布

您现在位置：Python中文网/ 问答频道 /正文

8240

网友

男 | 程序猿一只，喜欢编程写python代码。

我试图使用spark-redshiftdatabricks包，但无法使Redshiftjdbc驱动程序正常工作。我已经从here下载了最新版本并保存到s3存储桶中。在

我就是这样启动spark-shell

MASTER=yarn-client IPYTHON=1 PYSPARK_PYTHON=/usr/bin/python27 /usr/lib/spark/bin/pyspark 
--packages com.databricks:spark-avro_2.10:2.0.1,com.databricks:spark-redshift_2.10:1.1.0 
--jars 's3://pathto/RedshiftJDBC42-1.2.1.1001.jar'

我正试着从红移按照数据库自述阅读

^{pr2}$

但我得到一个配置错误：

 Py4JJavaError: An error occurred while calling o46.load.
 : java.lang.ClassNotFoundException: Could not load an Amazon Redshift JDBC driver; see the README for instructions on downloading and configuring the official Amazon driver.

jar文件似乎已被读取，因此不确定需要如何以不同的方式指定它。在

Tags： the com amazon bin here s3 usr driver

1条回答

网友

1楼 · 发布于 2024-10-02 00:35:16

只是在我意识到我做错了什么的时候更新这个。我在一个s3存储桶中引用jar文件，但这需要在集群本地可用。在

aws s3 cp s3://pathto/RedshiftJDBC42-1.2.1.1001.jar /tmp/

Pyspark配置Amazon Redshift JDBC j

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pyspark配置Amazon Redshift JDBC j

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >