为什么我不能拆分这个python列表？

with open("/var/log/apache2/access.log",'r') as log: from itertools import takewhile, dropwhile s_log = dropwhile(lambda L: start_search not in L, log) e_log = takewhile(lambda L: end_search not in L, s_log) query = [line for line in e_log if re.search(r'GET /(.+veggies|.+fruits)',line)] import csv query_dict = csv.DictReader(query,fieldnames=('ip','na-1','na-2','time', 'zone', 'url', 'refer', 'client'),quotechar='"',delimiter=" ") import re veggies = [ x for x in query_dict if re.search('veggies',x['url']) ] fruits = [ x for x in query_dict if re.search('fruits',x['url']) ]

1条回答

网友

1楼 · 发布于 2024-07-05 15:18:47

您只能循环遍历迭代器一次；query_dict是一个迭代器，它曾经扫描过veggies，但不能再次遍历以搜索fruits。你知道吗

这里不要使用列表理解。在query_dict上循环一次，检查每个条目的veggies和fruits：

veggies = []
fruits = []

for x in query_dict:
    if re.search('veggies',x['url']):
         veggies.append(x)
    if re.search('fruits',x['url']):
         fruits.append(x)

备选方案是：

为fruits列表重新创建csv.DictReader()对象：

query_dict = csv.DictReader(query,fieldnames=('ip','na-1','na-2','time', 'zone', 'url', 'refer', 'client'),quotechar='"',delimiter=" ")
veggies = [ x for x in query_dict if re.search('veggies',x['url']) ]
query_dict = csv.DictReader(query,fieldnames=('ip','na-1','na-2','time', 'zone', 'url', 'refer', 'client'),quotechar='"',delimiter=" ")
fruits = [ x for x in query_dict if re.search('fruits',x['url']) ]

这会产生双重效果；您会在整个数据集上循环两次。

使用^{}来“克隆”迭代器：

from itertools import tee
veggies_query_dict, fruits_query_dict = tee(query_dict)
veggies = [ x for x in veggies_query_dict if re.search('veggies',x['url']) ]
fruits = [ x for x in fruits_query_dict if re.search('fruits',x['url']) ]

这最终会将所有query_dict缓存在tee缓冲区中，需要两倍于同一任务的内存，直到fruits再次清空缓冲区。

相关问题更多 >

编程相关推荐

热门问题

热门文章