按特定键统计字典中的重复项

[ {'name': 'John', 'age': 10, 'country': 'USA', 'height': 185}, {'name': 'John', 'age': 10, 'country': 'Canada', 'height': 185}, {'name': 'Mark', 'age': 10, 'country': 'USA', 'height': 180}, {'name': 'Mark', 'age': 10, 'country': 'Canada', 'height': 180}, {'name': 'Doe', 'age': 15, 'country': 'Canada', 'height': 185} ]

[ { 'age': 10, 'country': 'USA', 'count': 2 }, { 'age': 10, 'country': 'Canada', 'count': 2 }, { 'age': 15, 'country': 'Canada', 'count': 1 } ]

[ { 'name': 'John', 'height': 185, 'count': 2 }, { 'name': 'Mark', 'height': 180, 'count': 2 }, { 'name': 'Doe', 'heigth': 185, 'count': 1 } ]

1条回答

网友

1楼 · 发布于 2024-07-08 10:26:34

您可以将^{}与^{}列表一起使用：

>>> data = [
   {'name': 'John', 'age': 10, 'country': 'USA', 'height': 185}, 
   {'name': 'John', 'age': 10, 'country': 'Canada', 'height': 185}, 
   {'name': 'Mark', 'age': 10, 'country': 'USA', 'height': 180},
   {'name': 'Mark', 'age': 10, 'country': 'Canada', 'height': 180},
   {'name': 'Doe', 'age': 15, 'country': 'Canada', 'height': 185}
]
>>> from itertools import groupby
>>> key = 'age', 'country'
>>> list_sorter = lambda x: tuple(x[k] for k in key)
>>> grouper = lambda x: tuple(x[k] for k in key)
>>> result = [
        {**dict(zip(key, k)), 'count': len([*g])} 
         for k, g in 
         groupby(sorted(data, key=list_sorter), grouper)
    ]
>>> result

[{'age': 10, 'country': 'Canada', 'count': 2},
 {'age': 10, 'country': 'USA', 'count': 2},
 {'age': 15, 'country': 'Canada', 'count': 1}]

>>> key = 'name', 'height'
>>> result = [
        {**dict(zip(key, k)), 'count': len([*g])} 
         for k, g in 
         groupby(sorted(data, key=list_sorter), grouper)
    ]

>>> result

[{'name': 'Doe', 'height': 185, 'count': 1},
 {'name': 'John', 'height': 185, 'count': 2},
 {'name': 'Mark', 'height': 180, 'count': 2}]

如果您使用pandas，那么您可以使用^{}、^{}、^{}、^{}，最后使用^{}和orient='records'：

>>> import pandas as pd
>>> df = pd.DataFrame(data)
>>> df.groupby(list(key)).size().to_frame('count').reset_index().to_dict('records')

[{'name': 'Doe', 'height': 185, 'count': 1},
 {'name': 'John', 'height': 185, 'count': 2},
 {'name': 'Mark', 'height': 180, 'count': 2}]

相关问题更多 >

编程相关推荐

热门问题

热门文章