如何将X个先前的数据拖入CSV行问题的回答

如何将X个先前的数据拖入CSV行

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个非常大的CSV数据，我需要为第2列中每个名称的每一行添加先前的数据，这些数据是在第2列中的当前日期之前的。我认为表示这个问题最简单的方法是提供一个与我的实际数据类似的详细示例，但明显缩小了： <pre><code>Datatitle,Date,Name,Score,Parameter data,01/09/13,george,219,dataa,text data,01/09/13,fred,219,datab,text data,01/09/13,tom,219,datac,text data,02/09/13,george,229,datad,text data,02/09/13,fred,239,datae,text data,02/09/13,tom,219,dataf,text data,03/09/13,george,209,datag,text data,03/09/13,fred,217,datah,text data,03/09/13,tom,213,datai,text data,04/09/13,george,219,dataj,text data,04/09/13,fred,212,datak,text data,04/09/13,tom,222,datal,text data,05/09/13,george,319,datam,text data,05/09/13,fred,225,datan,text data,05/09/13,tom,220,datao,text data,06/09/13,george,202,datap,text data,06/09/13,fred,226,dataq,text data,06/09/13,tom,223,datar,text data,06/09/13,george,219,dataae,text </code></pre> 所以对于这个csv的前三行，没有以前的数据。因此，如果我们说我们想把乔治（第1排）最后3次出现在当前日期之前的第3列和第4列，那么它应该是： ^{pr2}$ 但是，当以前的数据开始可用时，我们希望生成一个csv，如： <pre><code>Datatitle,Date,Name,Score,Parameter,LTscore,LTParameter,LTscore+1,LTParameter+1,LTscore+2,LTParameter+3, data,01/09/13,george,219,dataa,text,x,y,x,y,x,y data,01/09/13,fred,219,datab,text,x,y,x,y,x,y data,01/09/13,tom,219,datac,text,x,y,x,y,x,y data,02/09/13,george,229,datad,text,219,dataa,x,y,x,y data,02/09/13,fred,239,datae,text,219,datab,x,y,x,y data,02/09/13,tom,219,dataf,text,219,datac,x,y,x,y data,03/09/13,george,209,datag,text,229,datad,219,dataa,x,y data,03/09/13,fred,217,datah,text,239,datae,219,datab,x,y data,03/09/13,tom,213,datai,text,219,dataf,219,datac,x,y data,04/09/13,george,219,dataj,text,209,datag,229,datad,219,dataa data,04/09/13,fred,212,datak,text,217,datah,239,datae,219,datab data,04/09/13,tom,222,datal,text,213,datai,219,dataf,219,datac data,05/09/13,george,319,datam,text,219,dataj,209,datag,229,datad data,05/09/13,fred,225,datan,text,212,datak,217,datah,239,datae data,05/09/13,tom,220,datao,text,222,datal,213,datai,219,dataf data,06/09/13,george,202,datap,text,319,datam,219,dataj,209,datag data,06/09/13,fred,226,dataq,text,225,datan,212,datak,217,datah data,06/09/13,tom,223,datar,text,220,datao,222,datal,213,datai data,06/09/13,george,219,datas,text,319,datam,219,dataj,209,datag </code></pre> 您会注意到，对于06/09/13，george出现了两次，两次他都在他的行中附加了相同的字符串<code>319,datam,219,dataj,209,datag</code>。乔治第二次出现时，他得到了同样的字符串，因为上面的george 3行在同一日期。（这只是强调“在当前日期之前的日期。” 从列标题中可以看到，我们收集了最后3个分数和相关的3个参数，并将它们附加到每一行。请注意，这是一个非常简单的例子。事实上，每个日期都会包含几千行，在实际数据中，名字也没有模式，所以我们不希望看到弗雷德、汤姆、乔治在重复的模式上挨在一起。如果有人能帮我解决如何最好地实现这一点（最有效），我将非常感谢。如果有什么不清楚的请告诉我，我会补充更多的细节。任何建设性的意见都很感谢。谢谢你

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

我的两分钱： -Python 2.7.5 -我使用defaultdict保存每个名称的前一行 -我使用有界长度deques来保存之前的行，因为我喜欢完整deque的fifo行为。这让我很容易思考它-只要不断地往里面塞东西。 -我用过运算符.itemgetter（）用于索引和切片，因为它读起来更好。在 <pre><code>from collections import deque, defaultdict import csv from functools import partial from operator import itemgetter # use a 3 item deque to hold the # previous three rows for each name deck3 = partial(deque, maxlen = 3) data = defaultdict(deck3) name = itemgetter(2) date = itemgetter(1) sixplus = itemgetter(slice(6,None)) fields = ['Datatitle', 'Date', 'Name', 'Score', 'Parameter', 'LTscore', 'LTParameter', 'LTscore+1', 'LTParameter+1', 'LTscore+2', 'LTParameter+3'] with open('data.txt') as infile, open('processed.txt', 'wb') as outfile: reader = csv.reader(infile) writer = csv.writer(outfile) writer.writerow(fields) # comment out the next line if the data file does not have a header row reader.next() for row in reader: default = deque(['x', 'y', 'x', 'y', 'x', 'y'], maxlen = 6) try: previous_row = data[name(row)][-1] previous_date = date(previous_row) except IndexError: previous_date = None if previous_date == date(row): # use the xtra stuff from last time row.extend(sixplus(previous_row)) # discard the previous row because # there is a new row with the same date data[name(row)].pop() else: # add columns 3 and 4 from each previous row for deck in data[name(row)]: # adding new items to a full deque causes # items to drop off the other end default.appendleft(deck[4]) default.appendleft(deck[3]) row.extend(default) writer.writerow(row) data[name(row)].append(row) </code></pre> 在一杯波尔图葡萄酒中思考了一下这个解决方案之后，我意识到它太复杂了——当我试图变得花哨时，这种情况往往会发生。对协议不太确定，所以我就不谈了——它确实有一个可能的优势，即为每个名称保留前3行。在 下面是一个使用切片和常规字典的解决方案。它只保留先前处理过的行。简单得多。我保留了itemgetters，同样是为了可读性。在 ^{pr2}$ 我发现，对于类似类型的处理，积累行并将它们分块写入，而不是单独地写入，可以大大提高性能。另外，如果可能，一次读取整个数据文件也会有所帮助。在

如何将X个先前的数据拖入CSV行

1 个回答

相关Python问题