我想在Spark中从一个txt文件创建一个包含两列的RDD。在
以下是我的代码:
dataset = pd.read_fwf(FILE, colspecs=col, header=None, index_col=0,
names=['first','second','third'])
set = sc.parallelize(range(len(dataset)), 10)
first_second = set.map(lambda z: (dataset['first'][z], dataset['second'][z]))
我该怎么做?在
因为您使用pandas来读取txt文件,所以可以先创建Spark DF,然后才能访问列,例如
相关问题 更多 >
编程相关推荐