pandas列包含对象列表，根据键名拆分此列，并将值存储为逗号分隔值

A [{"A": 28, "B": "abc"},{"A": 29, "B": "def"},{"A": 30, "B": "hij"}] [{"A": 31, "B": "hij"},{"A": 32, "B": "abc"}] [{"A": 28, "B": "abc"}] [{"A": 28, "B": "abc"},{"A": 29, "B": "def"},{"A": 30, "B": "hij"}] [{"A": 28, "B": "abc"},{"A": 29, "B": "klm"},{"A": 30, "B": "nop"}] [{"A": 28, "B": "abc"},{"A": 29, "B": "xyz"}]

3条回答

网友

1楼 · 编辑于 2024-09-30 01:35:08

我假设A是一个dict列表

A = [
    [{"A": 28, "B": "abc"},{"A": 29, "B": "def"},{"A": 30, "B": "hij"}],
    [{"A": 31, "B": "hij"},{"A": 32, "B": "abc"}],
    [{"A": 28, "B": "abc"}],
    [{"A": 28, "B": "abc"},{"A": 29, "B": "def"},{"A": 30, "B": "hij"}],
    [{"A": 28, "B": "abc"},{"A": 29, "B": "klm"},{"A": 30, "B": "nop"}],
    [{"A": 28, "B": "abc"},{"A": 29, "B": "xyz"}]
]

我要做的第一件事就是用理解来编一本新词典。然后','.join在groupby内

^{pr2}$

网友

2楼 · 编辑于 2024-09-30 01:35:08

我想我要试试这个。首先，永远不要在可以避免的地方使用eval。更好的解决方案是使用ast：

import ast
df.A = df.A.apply(ast.literal_eval)

接下来，展开列：

^{pr2}$
现在，使用i的间隔执行groupby。在
idx = pd.cut(df.index, bins=np.append([0], i), include_lowest=True, right=False) df = df.groupby(idx, as_index=False).agg(','.join) df A B 0 28,29,30 abc,def,hij 1 31,32 hij,abc 2 28 abc 3 28,29,30 abc,def,hij 4 28,29,30 abc,klm,nop 5 28,29 abc,xyz
得到了巴拉斯的一点帮助。在
替代IntervalIndex（proposed by Wen）的另一个很酷的方法是使用np.put：
i = df.A.str.len().cumsum() df = pd.DataFrame.from_dict(np.concatenate(df.A).tolist()) df.A = df.A.astype(str) v = pd.Series(0, index=df.index) np.put(v, i-1, [1] * len(i)) df = df.groupby(v[::-1].cumsum()).agg(','.join)[::-1].reset_index(drop=True) df A B 0 28,29,30 abc,def,hij 1 31,32 hij,abc 2 28 abc 3 28,29,30 abc,def,hij 4 28,29,30 abc,klm,nop 5 28,29 abc,xyz
性能
df = pd.concat([df] * 1000, ignore_index=True)
%%timeit df.A.apply(pd.Series).stack().\ apply(pd.Series).groupby(level=0).\ agg(lambda x :','.join(x.astype(str))) 1 loop, best of 3: 8.76 s per loop
%%timeit A = df.A.values.tolist() B = { (i, j, k): v for j, row in enumerate(A) for i, d in enumerate(row) for k, v in d.items() } pd.Series(B).astype(str).groupby(level=[1, 2]).apply(','.join).unstack() 1 loop, best of 3: 2.08 s per loop
%%timeit i = df.A.str.len().cumsum() df2 = pd.DataFrame.from_dict(np.concatenate(df.A).tolist()) df2.A = df2.A.astype(str) idx = pd.cut(df2.index, bins=np.append([0], i), include_lowest=True, right=False) df2.groupby(idx, as_index=False).agg(','.join) 1 loop, best of 3: 810 ms per loop
%%timeit i = df.A.str.len().cumsum() df2 = pd.DataFrame.from_dict(np.concatenate(df.A).tolist()) df2.A = df2.A.astype(str) v = pd.Series(0, index=df2.index) np.put(v, i-1, [1] * len(i)) df2.groupby(v[::-1].cumsum()).agg(','.join)[::-1].reset_index(drop=True) 1 loop, best of 3: 548 ms per loop

网友
3楼 · 编辑于 2024-09-30 01:35:08

通过使用stack，然后使用groupby

df.A.apply(pd.Series).stack().\
     apply(pd.Series).groupby(level=0).\
        agg(lambda x :','.join(x.astype(str)))
Out[457]: 
          A            B
0  28,29,30  abc,def,hij
1     31,32      hij,abc
2        28          abc
3  28,29,30  abc,def,hij
4  28,29,30  abc,klm,nop

数据输入：

^{pr2}$
对于您的附加问题，请阅读csv
import ast df=pd.read_csv(r'your.csv',dtype={'A':object}) df['A'] = df['A'].apply(ast.literal_eval)

性能

相关问题更多 >

编程相关推荐

热门问题

热门文章