添加新标题和拆分列

“PATIENT”,"MD",“REFMD”,“DIAGNOSIS_HISTORY”,“AVAILABLE_STUDIES” “patient1\nPID1\npAge1”,“MDname1\nMDname3”,” RefDoctorName1”,“Prostate cancer”,”No Path\n CT ClinicName (CAP) - 11/30/2015\n Nuclear: ClinicName (Bone Scan) - 11/30/2015" "patient2\nPID2\npAge2”,”MDname2\nSeen 10/12/2015”,“RefDoctorName2”,”Prostate cancer”,”Path: O/S - Prostate Bx 11/12/2014”

1条回答

网友

1楼 · 发布于 2024-09-28 04:23:28

您可以从以下内容开始：

df.columns = [re.sub(r'[^A-Za-z0-9\\]+', '', c).strip() for c in df.columns]
for i, col in df.items():
    df.loc[:, i] = col.str.replace(r'[^A-Za-z0-9\\ ]+', '').str.strip()

要获得：

                 PATIENT                      MD           REFMD  \
0  patient1\nPID1\npAge1        MDname1\nMDname3  RefDoctorName1   
1  patient2\nPID2\npAge2  MDname2\nSeen 10122015  RefDoctorName2   

  DIAGNOSISHISTORY                                   AVAILABLESTUDIES  
0  Prostate cancer  No Path\n CT ClinicName CAP   11302015\n Nucle...  
1  Prostate cancer                      Path OS  Prostate Bx 11122014

在newline字符上split和expand转换成新的columns：

pat = df.iloc[:, 0].str.split(r'\\n', expand=True)
pat.columns = ['PATIENT_name', 'PID', 'pAGE']

  PATIENT_name   PID   pAGE
0     patient1  PID1  pAge1
1     patient2  PID2  pAge2

以及：

md = df.iloc[:, 1].str.split(r'\\n', expand=True)
md.columns = ['MD', 'MD2']

        MD            MD2
0  MDname1        MDname3
1  MDname2  Seen 10122015

相关问题更多 >

编程相关推荐

热门问题

热门文章

添加新标题和拆分列

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >