在Jupyter笔记本电脑窗口中运行pySpark

3条回答

网友

1楼 · 编辑于 2024-09-24 20:24:50

在Jupyter笔记本电脑-Windows中运行pySpark

JAVA8:https://www.guru99.com/install-java.html

阿纳康达：https://www.anaconda.com/distribution/

jupyter中的Pyspark:https://changhsinlee.com/install-pyspark-windows-jupyter/

import findspark

findspark.init()

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *

spark = SparkSession.builder.appName('test').getOrCreate()
data = [(1, "siva", 100), (2, "siva2", 200),(3, "siva3", 300),(4, "siva4", 400),(5, "siva5", 500)]
schema = ['id', 'name', 'sallary']

df = spark.createDataFrame(data, schema=schema)
df.show()

网友

2楼 · 编辑于 2024-09-24 20:24:50

2018版

在Windows 10上安装PYSPARK 带水蟒导航仪的JUPYTER笔记本电脑

第1步

下载软件包

1）spark-2.2.0-bin-hadoop2.7.tgzDownload

2）java jdk 8版本Download

3）水蟒5.2Download

4）scala-2.12.6.msiDownload

5）hadoop v2.7.1Download

第2步

在C:/驱动器中创建SPARK文件夹，并将所有内容放入其中 It will look like this

注意：在安装SCALA的过程中，在SPARK文件夹中给出SCALA的路径

第3步

现在设置新的WINDOWS环境变量

HADOOP_HOME=C:\spark\hadoop
JAVA_HOME=C:\Program Files\Java\jdk1.8.0_151
SCALA_HOME=C:\spark\scala\bin
SPARK_HOME=C:\spark\spark\bin
PYSPARK_PYTHON=C:\Users\user\Anaconda3\python.exe
PYSPARK_DRIVER_PYTHON=C:\Users\user\Anaconda3\Scripts\jupyter.exe
PYSPARK_DRIVER_PYTHON_OPTS=notebook
现在选择火花路径：
单击“编辑并添加新内容”
将“C:\spark\spark\bin”添加到变量“Path”窗口中

第4步

创建一个文件夹，用于存储Jupyter笔记本的输出和文件
然后打开Anaconda命令提示符和cd文件夹名
然后输入Pyspark

你的浏览器会弹出Juypter本地主机

第5步

检查pyspark是否正常工作！在

键入简单代码并运行它

from pyspark.sql import Row
a = Row(name = 'Vinay' , age=22 , height=165)
print("a: ",a)

网友

3楼 · 编辑于 2024-09-24 20:24:50

这对我很有效：

import os
import sys

spark_path = "D:\spark"

os.environ['SPARK_HOME'] = spark_path
os.environ['HADOOP_HOME'] = spark_path

sys.path.append(spark_path + "/bin")
sys.path.append(spark_path + "/python")
sys.path.append(spark_path + "/python/pyspark/")
sys.path.append(spark_path + "/python/lib")
sys.path.append(spark_path + "/python/lib/pyspark.zip")
sys.path.append(spark_path + "/python/lib/py4j-0.9-src.zip")

from pyspark import SparkContext
from pyspark import SparkConf

sc = SparkContext("local", "test")

要验证：

^{pr2}$

第1步

第2步

第3步

第4步

第5步

相关问题更多 >

编程相关推荐

热门问题

热门文章

在Jupyter笔记本电脑窗口中运行pySpark

第1步

第2步

第3步

第4步

第5步

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >