Pandas：基于现有行的新行

dataId nodeId tickDatetime 0 data-0 node-01 3000 1 data-0 node-02 5000 2 data-1 node-02 4000 3 data-1 node-01 6000 4 data-0 node-01 8000 5 data-0 node-00 10000 ... ... ...

routes = df.sort_values('tickDatetime').groupby('dataId').agg({'nodeId':[lambda x: list(x)],'tickDatetime':lambda x: list(x)}) def datetimes_to_travel_times(datetimes): traveltimes = np.empty(len(datetimes)) old_value = datetimes[0] traveltimes[0] = 0 for i in range(1,len(datetimes)): traveltimes[i] = datetimes[i] - old_value old_value = datetimes[i] return traveltimes routes['traveltimes'] = routes['tickDatetime'].apply(lambda row: datetimes_to_travel_times(row))

dataId nodeId tickDatetime traveltimes 0 data-0 [node-01,node-02,node-01,node-00] [3000,5000,8000,10000] [0,2000,3000,2000] 1 data-1 [node-02,node-01] [4000,6000] [0,2000]

dataId routeId nodeId tickDatetime traveltimes 0 data-0 0 [node-01,node-02] [3000,5000] [0,2000] 1 data-0 1 [node-01,node-00] [8000,10000] [0,2000] 2 data-1 0 [node-02,node-01] [4000,6000] [0,2000]

def split_routes(row): threshold = 3000 nodes = row['nodeId'] traveltimes = row['traveltimes'] rows = [] route_id = 0 route_nodes = [] route_traveltimes = [] for i in range(0, len(traveltimes)): if(traveltimes[i]<threshold): route_nodes.append(nodes[i]) route_traveltimes.append(traveltimes[i]) else : # Route route_id completed, starting a new one row['route_id'] = route_id row['Reader'] = route_nodes row['traveltimes'] = route_traveltimes rows.append(row) route_id+=1 route_nodes.append(nodes[i]) route_traveltimes.append(0) # Route route_id completed, starting a new one row['route_id'] = route_id row['Reader'] = route_nodes row['traveltimes'] = route_traveltimes rows.append(row) return pd.DataFrame(rows) splitted_routes_array = [] for index, row in routes.iterrows(): splitted_routes_array.append(split_routes(row)) splitted_routes = pd.concat(splitted_routes_array)

1条回答

网友

1楼 · 发布于 2024-10-01 02:36:07

df = pd.DataFrame({
'dataId':['data-0','data-0','data-1','data-1','data-0','data-0'],
'nodeId':['node-01','node-02','node-02','node-01','node-01','node-00'],
'tickDatetime':[3000,5000,4000,6000,8000,10000]})

append_ = lambda x:list(x)

df_2 = pd.DataFrame()
df_2['nodeId'] = df.groupby('dataId')['nodeId'].apply(append_)
df_2['tickDatetime'] = df.groupby('dataId')['tickDatetime'].apply(append_)
print(df_2)

输出：

                                  nodeId               tickDatetime
dataId                                                                 
data-0  [node-01, node-02, node-01, node-00]  [3000, 5000, 8000, 10000]
data-1                    [node-02, node-01]               [4000, 6000]

相关问题更多 >

编程相关推荐

热门问题

热门文章