为所有数据框列名添加一个数字，但列名和由字符串和整数组成

2条回答

网友

1楼 · 编辑于 2024-10-01 13:36:51

这个稍长一点，但你也可以试试

# Create DataFrame from current column headers
df_cols = pd.DataFrame(list(df.columns), columns=['Original_Names'])

    Original_Names
0   ARG15 - ILE10 vdW
1   VAL16 - ILE10 vdW
2   VAL16 - VAL19 vdW

# Split names into to parts based on hyphen
df_cols['Val_1'] = df_cols['Original_Names'].str.split('-').str.get(0)
df_cols['Val_2'] = df_cols['Original_Names'].str.split('-').str.get(1)

    Original_Names      Val_1   Val_2
0   ARG15 - ILE10 vdW   ARG15   ILE10 vdW
1   VAL16 - ILE10 vdW   VAL16   ILE10 vdW
2   VAL16 - VAL19 vdW   VAL16   VAL19 vdW

# Split Val_1 with regular expression to extract the number
df_cols['V1_num'] = df_cols['Val_1'].str.split('\w{3}').str.get(1)
df_cols['V2_num'] = df_cols['Val_2'].str.split('\w{3}').str.get(1)

    Original_Names  Val_1   Val_2   V1_num  V2_num
0   ARG15 - ILE10 vdW   ARG15   ILE10 vdW   15  10
1   VAL16 - ILE10 vdW   VAL16   ILE10 vdW   16  10
2   VAL16 - VAL19 vdW   VAL16   VAL19 vdW   16  19

# Add 1 to number in both columns
df_cols['V1_num_updtd'] = df_cols['V1_num'].astype(int) + 1
df_cols['V2_num_updtd'] = df_cols['V2_num'].astype(int) + 1

    Original_Names  Val_1   Val_2   V1_num  V2_num  V1_num_updtd    V2_num_updtd
0   ARG15 - ILE10 vdW   ARG15   ILE10 vdW   15  10  16  11
1   VAL16 - ILE10 vdW   VAL16   ILE10 vdW   16  10  17  11
2   VAL16 - VAL19 vdW   VAL16   VAL19 vdW   16  19  17  20

# Join split out data back together in new column
df_cols['New_Names'] = (df_cols['Val_1'].str.split('\d{2}').str.get(0) + 
 df_cols['V1_num_updtd'].astype(str) + ' -' +
 df_cols['Val_1'].str.split('\d{2}').str.get(1) +
 df_cols['Val_2'].str.split('\d{2}').str.get(0) + 
 df_cols['V2_num_updtd'].astype(str) + 
 df_cols['Val_2'].str.split('\d{2}').str.get(1))

Original_Names  Val_1   Val_2   V1_num  V2_num  V1_num_updtd    V2_num_updtd    New_Names
0   ARG15 - ILE10 vdW   ARG15   ILE10 vdW   15  10  16  11  ARG16 - ILE11 vdW
1   VAL16 - ILE10 vdW   VAL16   ILE10 vdW   16  10  17  11  VAL17 - ILE11 vdW
2   VAL16 - VAL19 vdW   VAL16   VAL19 vdW   16  19  17  20  VAL17 - VAL20 vdW

# Update columns on original DataFrame to transformed names
df.columns = list(df_cols['New_Names'])

ARG16 - ILE11 vdW   VAL17 - ILE11 vdW   VAL17 - VAL20 vdW
0   1   2   4
1   3   5   4
2   2   7   6

网友

2楼 · 编辑于 2024-10-01 13:36:51

您已经注意到，列是固定格式的

转置，因为操作行比操作列更简单
使用正则表达式解析出组件
根据您的需求重新构建
set_index()具有新值
转置以返回到原始结构

import re
myre = re.compile("^([A-Z]+)([0-9]+) - ([A-Z]+)([0-9]+) ([A-Z,a-z]+)$")

data = [[1, 2, 4], [3, 5, 4], [2, 7, 6]] 
df = pd.DataFrame(data, columns = ["ARG15 - ILE10 vdW", "VAL16 - ILE10 vdW", "VAL16 - VAL19 vdW"]) 
df = (df.T.assign(bits=lambda dfa: dfa.index)
 .assign(bits=lambda dfa: dfa.bits.apply(lambda s: "".join([f"{a}{int(b)+1} - {c}{int(d)+1} {e}" 
                                                            for a, b, c, d, e in re.findall(myre, s)])))
 .set_index("bits")
 .T
)

^{tb1}$

相关问题更多 >

编程相关推荐

热门问题

热门文章

为所有数据框列名添加一个数字，但列名和由字符串和整数组成

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >