如何在Python中对结构中的元素进行分组、计数和求和?

2024-09-25 00:33:59 发布

您现在位置:Python中文网/ 问答频道 /正文

这可能是一个简单的问题。我正在读取包含两列的csv文件:名称+值。我可以在那里有很多条目。计算每个“名称”+值总和出现次数的最简单、最有效的方法是什么?我可以通过循环自己完成,但Python中可能有一些聪明的方法来实现这一点

例如:

adam;10000
bartek;1000
tomasz;5000
adam;1000
bartek;3000

结果:

adam;11000;2
tomasz;5000;1
bartek;4000;2

Tags: 文件csv方法名称条目次数总和adam
3条回答

Python中处理数据最流行的包之一是Pandas。它允许您将csv数据(通过read_csv函数)存储到python对象(称为Pandas Dataframe)中,然后对其应用多个函数

一旦您的数据放在一个数据帧上(称之为df),您就可以执行以下操作

df_result = df.groupby('name')['value'].sum().reset_index()

这样,您可以按名称重新组合数据,并计算具有相同名称的每个值的总和

为此,您可以利用csv模块。将文件中的数据读入字典-使用名称作为键,并将值存储在此键下的列表中。使用collections.defaultdict最简单:

写入数据文件:

name = "f.txt"
with open(name, "w") as f:
    f.write("""adam;10000
bartek;1000
tomasz;5000
adam;1000
bartek;3000""" )

过程数据文件:

import csv # https://docs.python.org/3/library/csv.html
from collections import defaultdict

# read data into dictionary
results = defaultdict(list)
with open(name, newline='') as f:
  reader = csv.reader(f, delimiter=";")
  for line in reader:
      if line:
          results[line[0]].append(int(line[1]))

print(results)

# write data from dictionary to file
with open("new" + name, "w", newline="") as f:
    writer = csv.writer(f, delimiter=";")
    for key in results:
        writer.writerow([key, sum(results[key]), len(results[key])])


# read file and print it
print(open("new"+name).read())

输出:

# read data
defaultdict(<class 'list'>, {'adam': [10000, 1000], 
                             'bartek': [1000, 3000], 
                             'tomasz': [5000]})

# written results
adam;11000;2
bartek;4000;2
tomasz;5000;1

假设您的数据位于元组列表中(并且您不/不能使用熊猫),则可以执行以下操作:

people = [('adam', 10000), ('bartek', 1000),
          ('tomasz', 5000), ('adam', 1000), ('bartek', 3000)]

report = {}
for person in people:
    name, salary = person

    # we initialize the counter
    if name not in report:
        report[name] = {'salary': 0, 'times': 0}

    # then we add to it
    report[name]['salary'] = report[name]['salary'] + salary
    report[name]['times'] += 1

然后,您可以使用以下方法检索每个值:

print(report)
print(report['adam'])
print(report['adam']['salary'])
print(report['adam']['times'])

相关问题 更多 >