Python：将唯一id分组并将值合并到一个数组中

name ;time_cost x ;28800000, 250 x ;39600000, 300 x ;61200000, 250 x ;72000000, 0 y ;86400000, 0 y ;115200000, 250 y ;126000000, 300 y ;147600000, 250 y ;158400000, 0 df.head().to_dict() {'name': {0: 'x', 1: 'x', 2: 'x', 3: 'x'}, 'time_cost': {0: '28800000, 250', 1: '39600000, 300', 2: '61200000, 250', 0: '72000000, 0'}}

import pandas as pd df = pd.read_csv('file.csv', sep=';') def f(df): return pd.Series(dict(timecost_range = "%s" % '| '.join(df['time_cost']))) result = df.groupby('name').apply(f) result timecost_range name x 28800000, 250| 39600000, 300| 61200000, 250| 72000000, 0 y 86400000, 0| 115200000, 250| 126000000, 300| 147600000, 250|...

1条回答

网友

1楼 · 发布于 2024-05-19 17:03:38

在我的例子中，数据是：

df= pd.DataFrame({'name': {0: 'x',
          1: 'x',
          2: 'x',
          3: 'y'},
 'time_cost': {0: '28800000, 250',
                1: '39600000, 300',
                2: '61200000, 250',
                3: '72000000, 0'}})

第1步。您可以使用以下方法获得结果：

def split_function(n):
    return n.split(',')

df['time_cost'] = df.time_cost.apply(split_function)

输出：

name         time_cost
0    x  [28800000,  250]
1    x  [39600000,  300]
2    x  [61200000,  250]
3    y    [72000000,  0]

第2步。如果要在数据帧中使用两个不同的列，可以使用：

df.time_cost.apply(pd.Series)

输出：

          0     1
0  28800000   250
1  39600000   300
2  61200000   250
3  72000000     0

第3步。然后加入他们：

df = df.join(df.time_cost.apply(pd.Series))

输出：

name         time_cost         0     1
0    x  [28800000,  250]  28800000   250
1    x  [39600000,  300]  39600000   300
2    x  [61200000,  250]  61200000   250
3    y    [72000000,  0]  72000000     0

然后可以使用drop删除“time\u cost”列，rename根据需要重命名新列。你知道吗

这是你想要的吗？我希望这会有帮助。你知道吗

升级版：

第4步。如果要按名称分组，可以使用：

df[0] = df[0].astype(int)
df[1] = df[1].astype(int)

def concat_function_0(df):
    return np.array(df[0])
def concat_function_1(df):
    return np.array(df[1])

df = pd.DataFrame([df.groupby('name').apply(concat_function_1), df.groupby('name').apply(concat_function_0)]).T

它不是pythonic，但它是有效的=）

输出：

name               0                               1                                                 
x     [250, 300, 250]  [28800000, 39600000, 61200000]
y                 [0]                      [72000000]

升级版：

第5步。对于您的结果，在第一步之后使用以下命令：

def df_to_array(df):
    return list(df.time_cost)

result = df.groupby('name').apply(df_to_array).values

输出：

[[['28800000', ' 250'], ['39600000', ' 300'], ['61200000', ' 250']]
 [['72000000', ' 0']]]

相关问题更多 >

编程相关推荐

热门问题

热门文章