Python查找嵌套lis中具有唯一匹配值的列的平均值

2条回答

网友
1楼 · 编辑于 2024-10-04 01:25:28

pandas示例：
>>> import pandas as pd >>> df = pd.read_csv("grouped.csv", sep="[,\s]*") >>> df epochtime name score level extralives 0 1234455 suzy 120 3 0 1 1234457 billy 123 1 2 2 1234459 billy 124 2 4 3 1234459 suzy 224 5 4 4 1234460 suzy 301 7 1 5 1234461 billy 201 3 1 >>> g = df.groupby("name").describe() >>> g epochtime score level extralives name billy count 3.000000 3.000000 3.0 3.000000 mean 1234459.000000 149.333333 2.0 2.333333 std 2.000000 44.747439 1.0 1.527525 min 1234457.000000 123.000000 1.0 1.000000 25% 1234458.000000 123.500000 1.5 1.500000 50% 1234459.000000 124.000000 2.0 2.000000 75% 1234460.000000 162.500000 2.5 3.000000 max 1234461.000000 201.000000 3.0 4.000000 suzy count 3.000000 3.000000 3.0 3.000000 mean 1234458.000000 215.000000 5.0 1.666667 std 2.645751 90.835015 2.0 2.081666 min 1234455.000000 120.000000 3.0 0.000000 25% 1234457.000000 172.000000 4.0 0.500000 50% 1234459.000000 224.000000 5.0 1.000000 75% 1234459.500000 262.500000 6.0 2.500000 max 1234460.000000 301.000000 7.0 4.000000
或者简单地说：
^{pr2}$
然后：
^{3}$
等等。如果你用R/SQL的方式思考，但又想使用Python，那么一定要试试pandas。在
请注意，您还可以执行多列分组：
>>> df.groupby(["epochtime", "name"]).mean() score level extralives epochtime name 1234455 suzy 120 3 0 1234457 billy 123 1 2 1234459 billy 124 2 4 suzy 224 5 4 1234460 suzy 301 7 1 1234461 billy 201 3 1

网友
2楼 · 编辑于 2024-10-04 01:25:28

你必须收集每个名字，每个领域的列表。在
将collections.defaultdict与工厂一起使用来创建嵌套列表：
from collections import defaultdict columns = ('score', 'level', 'extralives') def per_user_data(): return {k: [] for k in columns} stats_per_timechunk = [] for timechunk in listoflists: # group data per user, per column (user -> {c1: [], c2: [], c3: []}) data = defaultdict(per_user_data) for userdata in timechunk: per_user = data[userdata[1]] for column, value in zip(columns, userdata[2:]): per_user[column].append(value) # collect min, max and average stats per user, per column # (user -> {c1: {min: 0, max: 0, avg: 0}, ..}) stats = {} for user, per_user in data.iteritems(): stats[user] = {column: { 'min': min(per_user[column]), 'max': max(per_user[column]), 'avg': sum(per_user[column]) / float(len(per_user[column])), } for column in columns} stats_per_timechunk.append(stats)
将示例输入数据转储到一个timechunk中可以得到：
^{pr2}$
也许您应该考虑使用不同的数据结构而不是所有这些列表，或者使用类似于pandas的方法来帮助您更有效地分析数据。在

相关问题更多 >

编程相关推荐

热门问题

热门文章