我想在Spark中从一个txt文件创建一个包含两列的RDD。我该怎么做?

2024-09-28 01:22:49 发布

您现在位置:Python中文网/ 问答频道 /正文

我想在Spark中从一个txt文件创建一个包含两列的RDD。在

以下是我的代码:

dataset = pd.read_fwf(FILE, colspecs=col, header=None, index_col=0,
                   names=['first','second','third'])

set = sc.parallelize(range(len(dataset)), 10)

first_second = set.map(lambda z: (dataset['first'][z], dataset['second'][z]))

我该怎么做?在


Tags: 代码txtreadcoldatasetsparkfileheader
1条回答
网友
1楼 · 发布于 2024-09-28 01:22:49

因为您使用pandas来读取txt文件,所以可以先创建Spark DF,然后才能访问列,例如

dataset = pd.read_fwf(FILE, colspecs=col, header=None, index_col=0, names=['first','second','third'])

set = sqlContext.createDataFrame(dataset)

first_second = set.map(lambda z: (z.first, z.second))

# another possibility
first_second = set.map(lambda z: (z["first"], z["second"]))

相关问题 更多 >

    热门问题