按多个CSV列压缩排序

Date Time, SegmentID, indicatorvalue 2016-12-01T00:00:00Z 147649 1 2016-12-01T00:01:00Z 147649 0 2016-12-01T00:02:00Z 147649 1 ... ... ... 2016-12-01T00:23:00Z 2938733 0

import numpy as np import pandas as pd df=pd.read_csv("data.csv",sep=",",index_col="Segment ID",usecols=["Segment ID","Date Time","indicatorvalue"]) df['Date Time'] = ['AM' if '06' <= x[11:13] < '10' else 'IP' if '10' <= x[11:13] < '16' else 'PM' if '16' <= x[11:13] < '19' else 'OP' if '19' <= x[11:13] or x[11:13] < '06' else 'Error' for x in df['Date Time']]

2条回答

网友

1楼 · 编辑于 2024-10-03 04:36:15

我设法用熊猫找到了解决办法。我使用的代码是：

import pandas as pd

df=pd.read_csv("data.csv",sep=",",usecols=["Segment ID","Date Time","indicator value"])

df['Date Time'] = ['AM' if '06' <= x[11:13] < '10' 
   else 'IP' if '10' <= x[11:13] < '16' 
   else 'PM' if '16' <= x[11:13] < '19'
   else 'OP' if '19' <= x[11:13] or x[11:13] < '06'
   else 'Error' for x in df['Date Time']]

grouped = df.groupby(['Segment ID','Date Time']).mean() 

grouped.to_csv('output.csv', sep =',')

我再推荐熊猫也不够。在

网友

2楼 · 编辑于 2024-10-03 04:36:15

我假设输入文件的结构是每分钟一行，给出开始时间、段id和指示符的值。在

如果段的数量与可用内存兼容，我只需一次在线读取输入文件，并将分钟数添加到每个段的8个计数器，即每天的时间和指示符值。这意味着初始文件只读取一次，而不是排序，唯一关键的数量是段的数量-如果它变得太高，我将使用sqlite3或dbm数据库而不是dict

对于您当前的示例（使用isnotcsv），代码可以是：

class Segment:
    labels = ['AM', 'IP', 'PM', 'OP']
    def __init__(self, segid):
        self.id = segid
        self.values = [ [ 0, 0 ] for i in range(4) ]
    def add(self, hour, indic):
        ix = 3
        if hour >= 6 and hour < 10: ix=0
        elif hour >= 10 and hour < 16: ix=1
        elif hour >= 16 and hour < 19: ix = 2
        self.values[ix][indic] += 1
    def percent(self, ix):
        try:
            return int(.5 + (100 * self.values[ix][1] /
                 (self.values[ix][0] + self.values[ix][1])))
        except ZeroDivisionError:
            return 0

dummy = next(fd)
splitter = re.compile(' +')
segments = dict()
for line in fd:  # read and store
    d, seg, indic = splitter.split(line.strip())  # could be replaced with a csv reader
    hour = int(d[11:13])
    if not seg in segments:
        segments[seg] = Segment(seg)
    segments[seg].add(hour, int(indic))
for seg in sorted(segments.keys()):  # output the stats
    for ix in range(4):
        print(seg, Segment.labels[ix], segments[seg].percent(ix))

上面的代码缺少对错误或异常情况的测试

相关问题更多 >

编程相关推荐

热门问题

热门文章