Python查找嵌套lis中具有唯一匹配值的列的平均值

2024-10-04 01:25:28 发布

您现在位置:Python中文网/ 问答频道 /正文

这和这个问题很相似:Finding minimum, maximum and average values for nested lists?

这个问题的重要区别和根源是,我想找到列表(嵌套在列表中)中每个唯一列名(人名)的最小值、最大值、平均值。在

例如: 每一行基本上(用相似的假名)—

epochtime, name, score, level, extralives 

例如

^{pr2}$

这些都是按时间排列的:

if epochtime < 1234500 and epochtime > 1234400:
        timechunk1.append(line)

每个时间段都有一个列表:

listoflists = [timechunk1, timechunk2....]

对于这个问题来说,这可能是也可能不是多余的/无关的。

对于每个唯一的名字(billy或suzy-除了billy或suzy-,我如何找到每个字段(score、level、extralifes)的最小值、最大值、平均值?在每个列表(timechunk1、timechunk2)中,不单独列出它们会更好吗?在


Tags: and列表level平均值scorevaluesaverageminimum
2条回答

pandas示例:

>>> import pandas as pd
>>> df = pd.read_csv("grouped.csv", sep="[,\s]*")
>>> df
   epochtime   name  score  level  extralives
0    1234455   suzy    120      3           0
1    1234457  billy    123      1           2
2    1234459  billy    124      2           4
3    1234459   suzy    224      5           4
4    1234460   suzy    301      7           1
5    1234461  billy    201      3           1
>>> g = df.groupby("name").describe()
>>> g
                  epochtime       score  level  extralives
name                                                      
billy count        3.000000    3.000000    3.0    3.000000
      mean   1234459.000000  149.333333    2.0    2.333333
      std          2.000000   44.747439    1.0    1.527525
      min    1234457.000000  123.000000    1.0    1.000000
      25%    1234458.000000  123.500000    1.5    1.500000
      50%    1234459.000000  124.000000    2.0    2.000000
      75%    1234460.000000  162.500000    2.5    3.000000
      max    1234461.000000  201.000000    3.0    4.000000
suzy  count        3.000000    3.000000    3.0    3.000000
      mean   1234458.000000  215.000000    5.0    1.666667
      std          2.645751   90.835015    2.0    2.081666
      min    1234455.000000  120.000000    3.0    0.000000
      25%    1234457.000000  172.000000    4.0    0.500000
      50%    1234459.000000  224.000000    5.0    1.000000
      75%    1234459.500000  262.500000    6.0    2.500000
      max    1234460.000000  301.000000    7.0    4.000000

或者简单地说:

^{pr2}$

然后:

^{3}$

等等。如果你用R/SQL的方式思考,但又想使用Python,那么一定要试试pandas。在

请注意,您还可以执行多列分组:

>>> df.groupby(["epochtime", "name"]).mean()
                 score  level  extralives
epochtime name                           
1234455   suzy     120      3           0
1234457   billy    123      1           2
1234459   billy    124      2           4
          suzy     224      5           4
1234460   suzy     301      7           1
1234461   billy    201      3           1

你必须收集每个名字,每个领域的列表。在

collections.defaultdict与工厂一起使用来创建嵌套列表:

from collections import defaultdict

columns = ('score', 'level', 'extralives')

def per_user_data():
    return {k: [] for k in columns}

stats_per_timechunk = []

for timechunk in listoflists:
    # group data per user, per column (user -> {c1: [], c2: [], c3: []})
    data = defaultdict(per_user_data)    
    for userdata in timechunk:
        per_user = data[userdata[1]]
        for column, value in zip(columns, userdata[2:]):
            per_user[column].append(value)

    # collect min, max and average stats per user, per column 
    # (user -> {c1: {min: 0, max: 0, avg: 0}, ..})
    stats = {}

    for user, per_user in data.iteritems():
        stats[user] = {column: {
                'min': min(per_user[column]),
                'max': max(per_user[column]),
                'avg': sum(per_user[column]) / float(len(per_user[column])),
            } for column in columns}

    stats_per_timechunk.append(stats)

将示例输入数据转储到一个timechunk中可以得到:

^{pr2}$

也许您应该考虑使用不同的数据结构而不是所有这些列表,或者使用类似于pandas的方法来帮助您更有效地分析数据。在

相关问题 更多 >