如何计算RDD联接（Spark）后元素有两个相同字段的次数

1条回答

网友

1楼 · 发布于 2024-07-03 06:13:03

使用自Spark 1.6以来引入的数据帧将更容易表达这一点。你使用RDD有什么特别的原因吗

如果不是，从一开始就开始使用数据帧，或者通过指定模式将现有RDD转换为数据帧。像这样：

>>> rdd = spark.sparkContext.parallelize([("5839477", ("SHL UNRESTRICTED", (u'AGBAMA,JAMES', u'MEDALLION TAXI DRIVER',u'12/27/2020', u'08/22/2019', u'13:20')))])
>>> from pyspark.sql.types import *
>>> schema = StructType([
...   StructField("user_id", StringType(), True),
...   StructField("details", StructType([
...     StructField("restrictions", StringType(), True),
...     StructField("more_details", StructType([
...       StructField("name", StringType(), True),
...       StructField("function", StringType(), True),
...       StructField("date1", StringType(), True),
...       StructField("date2", StringType(), True),
...       StructField("time_of_day", StringType(), True)
...     ]), True) ]), True)])
...
>>> df = rdd.toDF(schema=schema)
>>> df.filter(
...   (df.details.restrictions == "SHL UNRESTRICTED")
...   & (df.details.more_details.function == "MEDALLION TAXI DRIVER")
... ).count()
...
1

另外，您可以考虑将结构展平，这样就不需要在嵌套的列中进行挖掘

或者，如果您真的必须使用RDD，那么您可以像访问嵌套集合一样访问元素：

>>> rdd.filter(lambda x: (x[1][0] == "SHL UNRESTRICTED")
... and (x[1][1][1] == "MEDALLION TAXI DRIVER")
... ).count()
...
1

请注意，这段代码的表现力要差得多（对代码的读者来说，x[1][1][1]有什么意义？）。我绝对建议您在数据结构中添加名称

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何计算RDD联接（Spark）后元素有两个相同字段的次数

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >