spark rdd中的索引过滤

2024-10-01 00:15:49 发布

您现在位置:Python中文网/ 问答频道 /正文

是否可以根据RDD中的特定列值进行筛选 例如:

[(u'62d45630-587a-4290-91e1-a86fbe019bb5', (Row(process_id=1, event_id=u'62d45630-587a-4290-91e1-a86fbe019bb5', event_type=u'PlannedCustomerChoiceWasUpdated', publishedDate=u'2016-07-27T04:16:13.650Z', tgt_tbl_n=u'raw_plan', subj_area=u'plan', flag=u'R', url=u'http://gbp-router.gapinc.dev:8080/planning-service/planning/buy-plan/planned-customer-choices/a448760d-6d92-4dc9-b04a-7ec22673a158', url_id=u'a448760d-6d92-4dc9-b04a-7ec22673a158'), '{"ts":"2016-07-28T11:54:54.748Z","httpStatus":404,"errors":[{"code":"notFound","message":"Planned Customer Choice with id a448760d-6d92-4dc9-b04a-7ec22673a158 does not exist."}],"requestId":"ugM4CXkgax5qxILq"}', None, u'2016-07-27T04:16:13.650Z', 'N'))]

RDD的格式是key,value。我想过滤值[4],即'N'。 谁能帮帮我吗。在


Tags: eventidurltypeprocessrowplanningrdd
1条回答
网友
1楼 · 发布于 2024-10-01 00:15:49

我不太明白你想要完成什么,因为你的问题对我来说有点不清楚,但是在RDD上有不同的过滤方法。在

RDD本身没有模式,因此据我所知,您无法在这里按列筛选。如果要在RDD上运行SQL查询,可以通过应用模式并使用toDF()函数将RDD转换为数据帧。然后,可以对数据库中的表平等地处理数据帧。在

http://spark.apache.org/docs/latest/sql-programming-guide.html#interoperating-with-rdds

对RDD进行过滤的另一种方法是filter()函数。在

http://spark.apache.org/docs/latest/quick-start.html#basics

我猜你的RDD是元组的形式,第二个值是Iterable。您可以运行Iterable并筛选与条件不匹配的所有值。您还可以过滤Iterable中的最后一个位置,因为数据的语法总是相同的。在

希望有帮助!在

相关问题 更多 >