在两列比较中查找唯一字符

Result index column1 column2 diff 1. Admission Date Residence - Location Residence - Location 2. Malnutrition Malnutrition-12 -12 3. TB NAN NAN 4. Anaemia NA NA

def FindDifference(Row): x = Row['column1'] y = Row['column2'] Difference = "" if pd.isnull(y) or y=="nan" or y=="NA": return NaN if len(x) <= len(y): for i in y: if i not in x: Difference += str(i) else: for i in x: if i not in y: Difference += str(i) return Difference ReadDataT = Final_df[['column1','column2']] ReadDataT['diff']= ReadDataT.apply(lambda x: FindDifference(x),axis=1) ReadDataT

3条回答

网友

1楼 · 编辑于 2024-10-01 04:57:39

对于Python：

df = df.replace(np.nan, '', regex = True)
df['diff'] = df.apply(lambda x: x['column2'].replace(x['column1'], '').strip(), axis = 1)
df = df.replace('', np.nan, regex = True)

输出：

          column1               column2                  diff
0  Admission Date  Residence - Location  Residence - Location
1    Malnutrition       Malnutrition-12                   -12
2              TB                   NaN                   NaN
3         Anaemia                   NaN                   NaN

网友

2楼 · 编辑于 2024-10-01 04:57:39

在baser中，我们可以使用sub和mapply

df$diff <- mapply(function(x, y) sub(x, "", y), df$column1, df$column2)

df
#  index        column1              column2                 diff
#1     1 Admission Date Residence - Location Residence - Location
#2     2   Malnutrition      Malnutrition-12                  -12
#3     3             TB                  NAN                  NAN
#4     4        Anaemia                 <NA>                 <NA>

网友

3楼 · 编辑于 2024-10-01 04:57:39

library(dplyr); library(stringr)
df %>% mutate(diff = str_remove(column2, column1))

  index        column1              column2                 diff
1     1 Admission Date Residence - Location Residence - Location
2     2   Malnutrition      Malnutrition-12                  -12
3     3             TB                  NAN                  NAN
4     4        Anaemia                 <NA>                 <NA>

编辑：相同w/o dplyr

df$diff = stringr::str_remove(df$column2, df$column1)

相关问题更多 >

编程相关推荐

热门问题

热门文章