Pyspark元组对象没有属性spli

2条回答

网友

1楼 · 编辑于 2024-06-30 07:30:14

我并没有完全解析您的代码，但当我对两个数据集应用连接转换时，我遇到了相同的错误。在

假设A和B是两个rdd。在

c = A.join(B)

我们可能认为c也是Rdd，错了。它是一个元组对象，我们不能执行任何拆分（“，”）类型的操作行动。一需要把c变成Rdd然后继续。在

如果我们想访问元组，假设D是元组。在

^{pr2}$

网友

2楼 · 编辑于 2024-06-30 07:30:14

既然这是一项作业，我就试着解释到底发生了什么，而不仅仅是做答案。希望这会更有帮助！

这实际上与pySpark无关；它只是一个普通的Python问题。就像这个错误所说的，当split是一个字符串操作时，您正在尝试分割一个元组。而是通过索引访问它们。你要传递的对象：

[(u'Surreal_News', (u'BAT', u'11')),
 (u'Hourly_Sports', (u'CNO', u'79')),
 (u'Hourly_Sports', (u'CNO', u'3')),

是元组的列表，其中第一个索引是unicode字符串，第二个索引是另一个元组。您可以像这样将它们分开（我将用注释对每个步骤进行注释）：

^{pr2}$

请注意，在任何地方都不用逗号分隔。还要注意，u'11'是一个字符串，而不是数据中的整数。只要您确定它没有错误，就可以用int(u'11')来转换它。或者，如果您更喜欢指定索引而不是解压缩，则可以执行相同的操作：

first_index, second_index = item

相当于：

first_index = item[0]
second_index = item[1]

还请注意，如果您不确定数据将采用何种形式，也就是说，如果有时对象中有两个项，而其他项中有三个项，则这会变得更加复杂。在这种情况下，对一个循环以一种通用的方式进行解包和索引需要更多的思考。在