将列中的值提取到新列

data = {'ID': ['A0001', 'A0002', 'A0003', 'A0004', 'A0005'], 'Name': ['John', 'Micheal', 'Angle', 'Jim', 'Rome'], 'Details': ['Type:\nHouse\nVector:\nTriangle\n\nMission:\nCompleted,lv5\n\nNote user:\n#', 'Type:\n#\nVector:\n\n\nMission:\nFailed\nNote user:\n#', 'Type:\nCar\nVector:\nSquare\nMission:\nCompleted\nNote user:\n', 'Type:\n#\nVector:\n#\nMission:\nCompleted without award\n\nNote user:\nNo end', 'Type:\n#\nVector:\n#\nMission:\n\n\nNote user:\nThere are many mistake.\nI cant choose.\nI cant buy.'] } df = pd.DataFrame (data, columns=['ID', 'Name', 'Details']) df ID Name Details A0001 John Type:\nHouse\nVector:\nTriangle\n\nMission:\nCompleted,lv5\n\nNote user:\n# A0002 Micheal Type:\n#\nVector:\n\n\nMission:\nFailed\nNote user:\n# A0003 Angle Type:\nCar\nVector:\nSquare\nMission:\nCompleted\nNote user:\n A0004 Jim Type:\n#\nVector:\n#\nMission:\nCompleted without award\n\nNote user:\nNo end A0005 Rome Type:\n#\nVector:\n#\nMission:\n\n\nNote user:\nThere are many mistake.\nI cant choose.\nI cant buy.

data = {'ID': ['A0001', 'A0002', 'A0003', 'A0004', 'A0005'], 'Name': ['John', 'Micheal', 'Angle', 'Jim', 'Rome'], 'Type': ['House', '#', 'Car', '#', '#'], 'Vector': ['Triangle', '', 'Square', '#', '#'], 'Mission': ['Completed,lv5', 'Failed', 'Completed', 'Completed without award', ''], 'Note user': ['#', '#', '', 'No end', 'There are many mistake.I cant choose.I cant buy.'] } df = pd.DataFrame (data, columns=['ID', 'Name', 'Type', 'Vector', 'Mission', 'Note user']) df ID Name Type Vector Mission Note A0001 John House Triangle Completed,lv5 # A0002 Micheal # Failed # A0003 Angle Car Square Completed A0004 Jim # # Completed without award No end A0005 Rome # # There are many mistake.I cant choose.I cant buy.

2条回答

网友

1楼 · 编辑于 2024-10-04 11:35:51

您可以使用regex获得答案。附件中附有文件链接

首先，我用''替换所有\n。这样，所有换行符都将从Details列中删除

然后我抓取两个关键字之间的所有文本。对于类型，数据介于'Type:'和'Vector:'之间。矢量和任务也是如此。注意，我正在抓取'Note user:'之后的所有数据。现在已经从Details列中提取了数据，可以删除该列了

import pandas as pd
data = {'ID':  ['A0001', 'A0002', 'A0003', 'A0004', 'A0005'],
        'Name': ['John', 'Micheal', 'Angle', 'Jim', 'Rome'],
        'Details': ['Type:\nHouse\nVector:\nTriangle\n\nMission:\nCompleted,lv5\n\nNote user:\n#', 'Type:\n#\nVector:\n\n\nMission:\nFailed\nNote user:\n#', 'Type:\nCar\nVector:\nSquare\nMission:\nCompleted\nNote user:\n', 'Type:\n#\nVector:\n#\nMission:\nCompleted without award\n\nNote user:\nNo end', 'Type:\n#\nVector:\n#\nMission:\n\n\nNote user:\nThere are many mistake.\nI cant choose.\nI cant buy.']
        }

df = pd.DataFrame (data, columns=['ID', 'Name', 'Details'])

df['Details'] = df.Details.str.replace('\n','', regex=True)
df['Type']    = df.Details.str.extract('Type\:(.*)Vector')
df['Vector']  = df.Details.str.extract('Vector\:(.*)Mission')
df['Mission'] = df.Details.str.extract('Mission\:(.*)Note')
df['Note']    = df.Details.str.extract('Note user\:(.*)')

print (df[['ID','Name','Type','Vector']])
print (df[['Mission','Note']])

其输出将为：

      ID     Name   Type    Vector
0  A0001     John  House  Triangle
1  A0002  Micheal      #          
2  A0003    Angle    Car    Square
3  A0004      Jim      #         #
4  A0005     Rome      #         #

                   Mission                                              Note
0            Completed,lv5                                                 #
1                   Failed                                                 #
2                Completed                                                  
3  Completed without award                                            No end
4                           There are many mistake.I cant choose.I cant buy.

网友

2楼 · 编辑于 2024-10-04 11:35:51

以下是我尝试的：Details中的第一个值是：

'Type:\nHouse\nVector:\nTriangle\n\nMission:\nCompleted,lv5\n\nNote user:\n#'

我编写这个函数是为了将细节提取到dict中。我对数组的索引进行了硬编码，但如果愿意，您可以选择不这样做：

def extract_details(text):
    array = text.replace("\n\n", "\n").split("\n")
    return {
        array[0].replace(":", ""): array[1],
        array[2].replace(":", ""): array[3],
        array[4].replace(":", ""): array[5],
        array[6].replace(":", ""): array[7]
    }

将函数应用于整个列：

df['Details'].apply(extract_details)

将此新列连接到原始列：

pd.concat([
    df,
    pd.DataFrame(df['Details'].apply(extract_details).apply(pd.Series))
], axis=1)

相关问题更多 >

编程相关推荐

热门问题

热门文章