比较具有不同长度非均匀索引的数据帧的列值

dataOB = pd.DataFrame({'Time': \ [dt.datetime(2013,4,17,9,0,1), \ dt.datetime(2013,4,17,9,0,1), \ dt.datetime(2013,4,17,9,0,2), \ dt.datetime(2013,4,17,9,0,2), \ dt.datetime(2013,4,17,9,0,2), \ dt.datetime(2013,4,17,9,0,2), \ dt.datetime(2013,4,17,9,0,3), \ dt.datetime(2013,4,17,9,0,3)], \ 'hsec': [2,54,0,42,60,89,0,10], 'val': [4,5,5,3,2,4,4,7]})

dataOB.set_index('Time', inplace=True) dfEq.set_index('Time', inplace=True) dfEq['type'] = np.zeros(len(dfEq.index)) tmpOB = pd.DataFrame([dataOB.ix[trTime,'val'] for trTime in dfEq.index], \ index = dfEq.index) >>> tmpOB 0 1 2 3 Time 2013-04-17 09:00:01 4 5 NaN NaN 2013-04-17 09:00:01 4 5 NaN NaN 2013-04-17 09:00:01 4 5 NaN NaN 2013-04-17 09:00:02 5 3 2 4 2013-04-17 09:00:02 5 3 2 4 2013-04-17 09:00:03 4 7 NaN NaN 2013-04-17 09:00:03 4 7 NaN NaN 2013-04-17 09:00:03 4 7 NaN NaN 2013-04-17 09:00:03 4 7 NaN NaN [9 rows x 4 columns] dfEq.type[tmpOB.eq(dfEq.price,axis=0).any(axis=1) & (dfEq.flag=='K')] = 'MBO' dfEq.type[tmpOB.eq(dfEq.price,axis=0).any(axis=1) & (dfEq.flag=='V')] = 'LSO' >>> dfEq price flag type Time 2013-04-17 09:00:01 4 K MBO 2013-04-17 09:00:01 4 V LSO 2013-04-17 09:00:01 5 V LSO 2013-04-17 09:00:02 3 V LSO 2013-04-17 09:00:02 3 K MBO 2013-04-17 09:00:03 4 K MBO 2013-04-17 09:00:03 5 V 0 2013-04-17 09:00:03 4 K MBO 2013-04-17 09:00:03 5 V 0 [9 rows x 3 columns]

mergedDf = pd.merge(dfEq,dataOB,on='Time') mergedDf['type'] = np.zeros(len(mergedDf.index)) mergedDf.type[(mergedDf.price==mergedDf.val) & \ (mergedDf.flag=='K')] = 'MBO' mergedDf.type[(mergedDf.price==mergedDf.val) & \ (mergedDf.flag=='V')] = 'LSO'

1条回答

网友

1楼 · 发布于 2024-09-24 22:22:39

我发现我可以使用pandas的unstack（）来创建tmpOB，而不需要循环，这使得代码更快。在

首先，我必须通过一个多索引来索引dataOB

                          val
Time                hsec     
2013-04-17 09:00:01 0       4
                    1       5
2013-04-17 09:00:02 0       5
                    1       3  
                    2       2
                    3       4
2013-04-17 09:00:03 0       4
                    1       7

（将“hsec”级索引放入此表单需要一些操作，请参见pandas - change values of second level index to display position within first level index）

然后，通过

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章