有效扩展Pandas数据帧的线路

; No Time Date MoistAve MatTemp TDRConduct TDRAve DeltaCount tpAve Moist1 Moist2 Moist3 Moist4 TDR1 TDR2 TDR3 TDR4 1 11:38:17 11.07.2012 11.37 48.20 5.15 88.87 15 344.50 11.84 11.35 11.59 15.25 89.0 89.0 89.0 88.0 2 11:38:18 11.07.2012 11.44 48.20 5.13 88.88 2 346.22 12.08 11.83 -1.00 -1.00 89.0 89.0 -1.0 -1.0 3 11:38:19 11.07.2012 11.10 48.20 4.96 89.00 3 337.84 11.83 11.59 10.62 -1.00 89.0 89.0 89.0 -1.0 4 11:38:19 11.07.2012 11.82 48.20 5.54 88.60 3 355.92 11.10 13.54 12.32 -1.00 89.0 88.0 88.0 -1.0

.... Moist TDR No FetchTime MeasureNo 0 2012-11-07 11:38:17 1 .... 11.84 89 # from line 1, Moist1 and TDR1 1 2 .... 11.35 89 # from line 1, Moist2 and TDR2 2 3 .... 11.59 89 # from line 1, Moist3 and TDR3 3 4 .... 15.25 88 # from line 1, Moist4 and TDR4 4 2012-11-07 11:38:18 1 .... 12.08 89 # from line 2, Moist1 and TDR1 5 2 .... 11.83 89 # from line 2, Moist2 and TDR2 6 3 .... NaN NaN # from line 2, Moist3 and TDR3 7 4 .... NaN NaN # from line 2, Moist4 and TDR4

In [54]: data = [] In [55]: for d in range(1,5): ....: temp = df.ix[:, ['FetchTime', 'MoistAve', 'MatTemp', 'TDRConduct', 'TDRAve', 'DeltaCount', 'tpAve', 'Moist%d' % d, 'TDR%d' % d]] ....: temp.columns = ['FetchTime', 'MoistAve', 'MatTemp', 'TDRConduct', 'TDRAve', 'DeltaCount', 'tpAve', 'RawMoist', 'RawTDR'] ....: temp['MeasureNo'] = d ....: data.append(temp) ....: In [56]: test = pd.concat(data, ignore_index=True) In [62]: test.head() Out[62]: FetchTime MoistAve MatTemp TDRConduct TDRAve DeltaCount tpAve RawMoist RawTDR MeasureNo 0 2012-11-07 11:38:17 11.37 48.2 5.15 88.87 15 344.50 11.84 89 1 1 2012-11-07 11:38:18 11.44 48.2 5.13 88.88 2 346.22 12.08 89 1 2 2012-11-07 11:38:19 11.10 48.2 4.96 89.00 3 337.84 11.83 89 1 3 2012-11-07 11:38:19 11.82 48.2 5.54 88.60 3 355.92 11.10 89 1 4 2012-11-07 11:38:20 12.61 48.2 5.87 88.38 3 375.72 12.80 89 1

2条回答

网友

1楼 · 编辑于 2024-09-30 01:31:48

这里有一个基于numpy的repeat和数组索引来构建去堆叠的值，pandas的merge来输出连接的结果。在

首先将数据样本加载到数据帧中（稍微改变read_cv的参数）。在

from cStringIO import StringIO

data = """; No   Time   Date  MoistAve  MatTemp  TDRConduct  TDRAve  DeltaCount  tpAve  Moist1  Moist2  Moist3  Moist4  TDR1  TDR2  TDR3  TDR4
1  11:38:17   11.07.2012  11.37  48.20  5.15  88.87  15  344.50  11.84  11.35  11.59  15.25  89.0  89.0  89.0  88.0
2  11:38:18   11.07.2012  11.44  48.20  5.13  88.88  2  346.22  12.08  11.83  -1.00  -1.00  89.0  89.0  -1.0  -1.0
3  11:38:19   11.07.2012  11.10  48.20  4.96  89.00  3  337.84  11.83  11.59  10.62  -1.00  89.0  89.0  89.0  -1.0
4  11:38:19   11.07.2012  11.82  48.20  5.54  88.60  3  355.92  11.10  13.54  12.32  -1.00  89.0  88.0  88.0  -1.0
"""

date_spec = {'FetchTime': [1, 2]}
df = pd.read_csv(StringIO(data), header=0, sep='\s\s+',parse_dates=date_spec, na_values=['-1.0', '-1.00'])

然后构建TDRs的去叠加向量，并将其与原始数据帧合并

^{pr2}$

在期望的输出下：

output.ix[:,['TDR1','TDR2','TDR3','TDR4','TDR']]

   TDR1  TDR2  TDR3  TDR4  TDR
0    89    89    89    88   89
0    89    89    89    88   89
0    89    89    89    88   89
0    89    89    89    88   88
1    89    89   NaN   NaN   89
1    89    89   NaN   NaN   89
1    89    89   NaN   NaN  NaN
1    89    89   NaN   NaN  NaN
2    89    89    89   NaN   89
2    89    89    89   NaN   89
2    89    89    89   NaN   89
2    89    89    89   NaN  NaN
3    89    88    88   NaN   89
3    89    88    88   NaN   88
3    89    88    88   NaN   88
3    89    88    88   NaN  NaN

网友

2楼 · 编辑于 2024-09-30 01:31:48

这使得测试中的第四行从“i”开始：

test.ix[i::4]

使用与上面相同的基本循环，只需在运行上面的代码之后，附加从0到3开始的第四行的集合。在

^{pr2}$

更新：我现在意识到你想要的不是每四行而是每一个月，所以这只是上面的循环建议。对不起的。在

更新2：也许不是。我们可以利用这样一个事实：即使concatenate不返回您想要的顺序，它返回的内容与您想要的内容有固定的映射关系。d是每个时间戳的行数，m是时间戳的数目。在

您似乎希望test中的行如下所示： [0，m，2m，3m，1，m+1,2m+1,3m+1,2，m+2,2m+2,3m+2，…，m-1,2m-1,3m-1,4m-1]

我确信有更好的方法来生成这个索引列表，但这对我很有效

d = 4
m = 10
small = (np.arange(0,m).reshape(m,1).repeat(d,1).T.reshape(-1,1))
shifter = (np.arange(0,d).repeat(m).reshape(-1,1).T * m) 
NewIndex = (shifter.reshape(d,-1) + small.reshape(d,-1)).T.reshape(-1,1)
NewIndex = NewIndex.reshape(-1)
test = test.ix[NewIndex]

相关问题更多 >

编程相关推荐

热门问题

热门文章