python中数据帧内列表中的正则表达式替换

1条回答

网友

1楼 · 发布于 2024-10-05 14:23:29

更新的数据解决方案

data= {'COL1': {0: 'G1', 1: 'G1'}, 'COL2': {0: 1, 1: 2}, 'COL3 ': {0: "[[(OK2_+__HELLO,OJ_+__BY),(LO_-__HOLLA,KUOJ_+__BY)]]", 1: "[[(JU3_+__BO,UJ3_-__GET)]]"}}
df = pd.DataFrame.from_dict(data)
df['COL4'] = df['COL3 '].str.replace(r"([,(])[^(),]*__", r"\1")
df['COL4']
# => 0    [[(HELLO,BY),(HOLLA,BY)]]
#    1                 [[(BO,GET)]]
#    Name: COL4, dtype: object

见regex demo

旧数据解决方案

您可以使用ast.literal_eval将COL3列中的字符串转换为列表列表，并在修改元组项目时对其进行迭代：

import ast
import pandas as pd
data= {'COL1': {0: 'G1', 1: 'G1'}, 'COL2': {0: 1, 1: 2}, 'COL3 ': {0: "[[('OK2_+__HELLO','OJ_+__BY'),('LO_-__HOLLA','KUOJ_+__BY')]]", 1: "[[('JU3_+__BO','UJ3_-__GET')]]"}}
df = pd.DataFrame.from_dict(data)

def repl(m):
    result = []
    for l in ast.literal_eval(m):
        ll = []
        for x, y in l:
            ll.append(tuple([re.sub(r'.*__', '', x), re.sub(r'.*__', '', y)]))
        result.append(ll)
    return str(result)

df['COL4'] = df['COL3 '].apply(repl)
df['COL4']
# => 0    [[('HELLO', 'BY'), ('HOLLA', 'BY')]]
#    1                       [[('BO', 'GET')]]

如果可以将结果保留为列表列表，则不需要使用str(result)

相关问题更多 >

编程相关推荐

热门问题

热门文章

python中数据帧内列表中的正则表达式替换

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >