我想在Spark中从一个txt文件创建一个包含两列的RDD。我该怎么做？

dataset = pd.read_fwf(FILE, colspecs=col, header=None, index_col=0, names=['first','second','third']) set = sc.parallelize(range(len(dataset)), 10) first_second = set.map(lambda z: (dataset['first'][z], dataset['second'][z]))

1条回答

网友

1楼 · 发布于 2024-09-28 01:22:49

因为您使用pandas来读取txt文件，所以可以先创建Spark DF，然后才能访问列，例如

dataset = pd.read_fwf(FILE, colspecs=col, header=None, index_col=0, names=['first','second','third'])

set = sqlContext.createDataFrame(dataset)

first_second = set.map(lambda z: (z.first, z.second))

# another possibility
first_second = set.map(lambda z: (z["first"], z["second"]))

编程相关推荐

java如何使用Flyway回滚迁移？
sql试图在java中连接两个表，但我遇到了一个错误
java使用commons apache API复制文件内容
java无法解析模块
原因：java。lang.IllegalArgumentException:org。冬眠QueryException:无法解析属性：
java使用TNT4J，TrackingLogger统计数据仅显示该类的统计数据，如果我想要应用程序范围的统计数据呢？
java项目Euler#19，答案只有在1900年开始时才正确？
java显示标签上的选定值列表
java在局部变量中缓存属性吗？
java preparedStatement。setString（1，“null”）被解释为null而不是字符串（在preparedStatement.addBatch（）之后）

相关问题更多 >

编程相关推荐

热门问题

热门文章

我想在Spark中从一个txt文件创建一个包含两列的RDD。我该怎么做？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >