在MacB上安装pyspark

2024-09-24 00:35:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我在斯卡拉使用Spark已经很长时间了。现在我第一次使用pyspark。这是Mac电脑上的

  1. 首先我使用conda install pyspark安装了pyspark,然后它安装了pyspark 2.2.0
  2. 我使用brew安装了apache spark,它似乎已经安装了apache spark 2.2.0

但当我运行pyspark时,它会转储

/Users/me/anaconda/bin/pyspark: line 24: /Users/bruceho/spark-1.6/spark-1.6.2-bin-hadoop2.6/bin/load-spark-env.sh: No such file or directory
/Users/me/anaconda/bin/pyspark: line 77: /Users/bruceho/spark-1.6/spark-1.6.2-bin-hadoop2.6/bin/spark-submit: No such file or directory
/Users/me/anaconda/bin/pyspark: line 77: exec: /Users/bruceho/spark-1.6/spark-1.6.2-bin-hadoop2.6/bin/spark-submit: cannot execute: No such file

为什么它指向的是1.6.2版本,它似乎已经不存在了?Brew search apache spark确实表示存在这两个1.5版本。和1.6。pyspark 2.2.0不应该自动指向apachespark2.2.0安装吗?


Tags: ornobinapachelineanacondausersdirectory
3条回答

步骤1:如果没有brew,请先在终端中使用以下命令安装brew

/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

第2步:一旦有了brew,请运行下面的命令在Mac上安装java。

brew cask install homebrew/cask-versions/adoptopenjdk8

步骤3:安装Java后,运行以下命令在Mac上安装spark

brew install apache-spark

第4步:键入pyspark -version

你的问题有很多问题:

首先,PySpark不是一个附加包,而是Spark本身的一个基本组件;换句话说,在安装Spark时,默认情况下也会得到PySpark(即使您愿意,也无法避免)。所以,第2步应该足够了(甚至在这之前,PySpark应该可以在您的机器中使用,因为您已经在使用Spark了)。

步骤1是不必要的:PyPi中的Pyspark(即与pipconda一起安装)不包含完整的Pyspark功能;它只用于已经存在的集群中的Spark安装。从docs

The Python packaging for Spark is not intended to replace all of the other use cases. This Python packaged version of Spark is suitable for interacting with an existing cluster (be it Spark standalone, YARN, or Mesos) - but does not contain the tools required to setup your own standalone Spark cluster. You can download the full version of Spark from the Apache Spark downloads page.

NOTE: If you are using this with a Spark standalone cluster you must ensure that the version (including minor version) matches or you may experience odd errors

基于这样的事实,正如您所说,您已经在使用Spark(通过Scala),您的问题似乎与升级有关。现在,如果您使用预先构建的Spark发行版,实际上您没有什么要安装的——您只需下载、解压缩和设置相关的环境变量(SPARK_HOME等)——请参阅我对"upgrading" Spark的回答,这实际上也适用于首次“安装”。

现在安装pyspark的最简单方法是使用>;2.2版进行pip安装。

pip install pyspark

如果您希望改用发行版(并希望与发行版一起使用jupyter),另一种方法是: https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f

相关问题 更多 >