在Jupyter笔记本电脑窗口中运行pySpark

2024-09-24 20:24:50 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从Jupyter笔记本运行pySpark。我下载并安装了有Juptyer的Python。我创建了以下行

 from pyspark import SparkConf, SparkContext
 conf = SparkConf().setMaster("local").setAppName("My App")
 sc = SparkContext(conf = conf)

我得到以下错误

^{pr2}$

根据Stackoverflowimporting pyspark in python shell中的答案,我尝试添加以下指向spark/python目录的环境变量PYTHONPATH

但这没用


Tags: fromimportappmylocalconf笔记本jupyter
3条回答

在Jupyter笔记本电脑-Windows中运行pySpark

JAVA8:https://www.guru99.com/install-java.html

阿纳康达:https://www.anaconda.com/distribution/

jupyter中的Pyspark:https://changhsinlee.com/install-pyspark-windows-jupyter/

import findspark

findspark.init()

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *

spark = SparkSession.builder.appName('test').getOrCreate()
data = [(1, "siva", 100), (2, "siva2", 200),(3, "siva3", 300),(4, "siva4", 400),(5, "siva5", 500)]
schema = ['id', 'name', 'sallary']

df = spark.createDataFrame(data, schema=schema)
df.show()

2018版

在Windows 10上安装PYSPARK 带水蟒导航仪的JUPYTER笔记本电脑

第1步

下载软件包

1)spark-2.2.0-bin-hadoop2.7.tgzDownload

2)java jdk 8版本Download

3)水蟒5.2Download

4)scala-2.12.6.msiDownload

5)hadoop v2.7.1Download

第2步

C:/驱动器中创建SPARK文件夹,并将所有内容放入其中 It will look like this

注意:在安装SCALA的过程中,在SPARK文件夹中给出SCALA的路径

第3步

现在设置新的WINDOWS环境变量

  1. HADOOP_HOME=C:\spark\hadoop

  2. JAVA_HOME=C:\Program Files\Java\jdk1.8.0_151

  3. SCALA_HOME=C:\spark\scala\bin

  4. SPARK_HOME=C:\spark\spark\bin

  5. PYSPARK_PYTHON=C:\Users\user\Anaconda3\python.exe

  6. PYSPARK_DRIVER_PYTHON=C:\Users\user\Anaconda3\Scripts\jupyter.exe

  7. PYSPARK_DRIVER_PYTHON_OPTS=notebook

  8. 现在选择火花路径

    单击“编辑并添加新内容”

    将“C:\spark\spark\bin”添加到变量“Path”窗口中

第4步

  • 创建一个文件夹,用于存储Jupyter笔记本的输出和文件
  • 然后打开Anaconda命令提示符和cd文件夹名
  • 然后输入Pyspark

你的浏览器会弹出Juypter本地主机

第5步

检查pyspark是否正常工作!在

键入简单代码并运行它

from pyspark.sql import Row
a = Row(name = 'Vinay' , age=22 , height=165)
print("a: ",a)

这对我很有效:

import os
import sys

spark_path = "D:\spark"

os.environ['SPARK_HOME'] = spark_path
os.environ['HADOOP_HOME'] = spark_path

sys.path.append(spark_path + "/bin")
sys.path.append(spark_path + "/python")
sys.path.append(spark_path + "/python/pyspark/")
sys.path.append(spark_path + "/python/lib")
sys.path.append(spark_path + "/python/lib/pyspark.zip")
sys.path.append(spark_path + "/python/lib/py4j-0.9-src.zip")

from pyspark import SparkContext
from pyspark import SparkConf

sc = SparkContext("local", "test")

要验证:

^{pr2}$

相关问题 更多 >