将PySpark RDD映射两次以按不同键分组

timeRange = (access_logs .map(lambda log: (log.date_time, 1)) .reduceByKey(lambda a, b : a + b) .map(lambda s: s) .take(2000)) print("IpAddresses by time range: {}".format(timeRange))

def parse_apache_log_line(logline): match = re.search(APACHE_ACCESS_LOG_PATTERN, logline) if match is None: raise Exception("Invalid logline: %s" % logline) return Row( ip_address = match.group(1), client_identd = match.group(2), user_id = match.group(3), date_time = match.group(4), method = match.group(5), endpoint = match.group(6), protocol = match.group(7), response_code = int(match.group(8)), content_size = int(match.group(9)) )

1条回答

网友

1楼 · 发布于 2024-09-25 16:29:00

您只需在第一步中按(date_time, ip_address)键进行缩减，然后按date_time分组即可

试试这个：

timeRange = (access_logs
             .map(lambda log: ((log.date_time, log.ip_address), 1))
             .reduceByKey(lambda a, b: a + b)
             .map(lambda x: (x[0][0], (x[0][1], x[1]))) # <=> (date_time, (ip_address, count))
             .groupByKey()
             .map(lambda x: (x[0], list(x[1]))) # this final step to get list as groupBy gives ResultIterable object
            )

相关问题更多 >

编程相关推荐

热门问题

热门文章