Pyspark插座

2024-10-01 22:36:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图用pyspark读取文件(~600Mcsv文件)。在

令人惊讶的是,同样的代码在Scala中也能正常工作。在

我找到了这个问题页 https://issues.apache.org/jira/browse/SPARK-12261但不起作用。在

阅读代码:

import os
from pyspark import SparkContext
from pyspark import SparkConf

datasetDir = 'D:\\Datasets\\movieLens\\ml-latest\\'
ratingFile = 'ratings.csv'

conf = SparkConf().setAppName("movie_recommendation-server").setMaster('local[2]')
sc = SparkContext(conf=conf)

ratingRDD = sc.textFile(os.path.join(datasetDir, ratingFile))
print(ratingRDD.take(1)[0])

我得到了这个错误:

^{pr2}$

Tags: 文件代码fromimportosconfpysparksc

热门问题