如何从CSV文件聚合到Python文件中的值

Time,Location,Companyid,Metrics,Amount 2012Q1,AK_995,A,Sales,8820156.363 2012Q1,AK_995,B,Revenue,28392730.51 2012Q1,AK_995,C,Sales,6980332.166 2012Q1,AK_996,B,Revenue,1894254.13 2012Q1,AK_996,A,Sales,4664103.766 2012Q2,AK_995,C,Sales,7980332.166

totals = {} # Aggregate sales by quarter, state, and company. for row in csv.reader(open('data.csv')): if row[3] == 'Sales': key = (row[0], row[1][:2], row[2]) totals[key] = totals.setdefault(key, 0) + float(row[4]) # Write aggregated data to file. with open('aggregated.csv', 'w') as out_file: writer = csv.writer(out_file) for key, value in totals.items(): row = list(key) + [value] writer.writerow(row)

3条回答

网友

1楼 · 编辑于 2024-10-01 09:29:07

我不知道你的数据集有多大，但你应该开始考虑使用熊猫。您将受益于许多工具，如从csv到按列分组的数据帧创建。最后你可以灵活地选择输出，而且速度非常快。在

编辑：抱歉，我现在只有我的手机，但这里是如何从一个csv和生成一个数据帧：http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.from_csv.html 下面是groupby:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html 它看起来像：

import pandas as pd

df = pd.DataFrame.from_csv(r'yourPathToCsv.csv')

data_grouped = df.groupby(['col1','col2'])['colAmount'].sum().to_frame()

然后，可以使用to_csv（）函数从Dataframe导出数据。在

更新：现在，read_csv方法优于from_csv方法。下面是一个更新的示例：

^{pr2}$

网友

2楼 · 编辑于 2024-10-01 09:29:07

对于大数据来说，简单但不是最佳选择：

import csv

source = {}
with open('filename.csv', 'rb') as csvfile:
    csvreader = csv.reader(csvfile, delimiter=',', quotechar='"')
    next(csvreader , None) #  skip line
    next(csvreader , None) #  skip line
    for row in csvreader:
        if row[3] != 'Sales':
            continue
        data_date = row[0]
        data_state = row[1].split('_')[0]
        data_company = row[2]
        data_amount = float(row[4])
        if data_date not in source:
            source[data_date] = {}
        if data_state not in source[data_date]:
            source[data_date][data_state] = {}
        if data_company not in source[data_date][data_state]:
            source[data_date][data_state][data_company] = []
        source[data_date][data_state][data_company].append(data_amount)

    for k_date in source:
        for k_state in source[k_date]:
            for k_company in source[k_date][k_state]:
                data = source[k_date][k_state][k_company]
                average = ( sum(data) / len(data) )
                print('%s,%s,%s,%s' % (k_date, k_state, k_company, average))

网友

3楼 · 编辑于 2024-10-01 09:29:07

要聚合数据，请使用哈希。从要聚合的值的元组中生成键。在

totals = {}

for row in csv.reader(open('data.csv')):
  if row[3] == 'Sales':
    key = (row[2], row[1][:2], row[0])
    totals[key] = totals.setdefault(key, 0) + float(row[4])

要写入CSV文件，请在打开的文件对象上使用csv.writer()。要生成行，请将每个哈希键转换为一个列表，并将其与总销售额连接起来。在

^{pr2}$

我们可以将这两个操作组合成一个简短的脚本：

import csv

totals = {}

# Aggregate sales by company, state, and quarter.
for row in csv.reader(open('data.csv')):
  if row[3] == 'Sales':
    key = (row[2], row[1][:2], row[0])
    totals[key] = totals.setdefault(key, 0) + float(row[4])

# Write aggregated data to file.
with open('aggregated.csv', 'w') as out_file:
  writer = csv.writer(out_file)
  for key, value in sorted(totals.items()):
    row = list(key) + [value]
    writer.writerow(row)

运行上面的脚本并检查结果文件aggregated.csv。在

相关问题更多 >

编程相关推荐

热门问题

热门文章