Pandas缩略语比较

import pandas as pd df = pd.DataFrame({'key': [111, 222, 333, 444, 555, 666, 777, 888, 999], 'left_name' : ['ET CETERA SYSTEMS', 'ODDS AND ENDS', 'MAXIMA COMPANY', 'MUSIC MANY', 'GRAPHIC MASTER', 'ARC SECURITY', 'MINDNSOLES', 'REX ENERGY', 'THESIS COMPANY'], 'right_name' : ['ET CETERA SYS', 'ODDSNENDS', 'MAX COMP', 'MUSICMANY', 'GRAPHIC MSTR', 'ARC SECU', 'MIND AND SOLES', 'REXX', 'THESIS COMP']}) print(df) key left_name right_name 0 111 ET CETERA SYSTEMS ET CETERA SYS 1 222 ODDS AND ENDS ODDSNENDS 2 333 MAXIMA COMPANY MAX COMP 3 444 MUSIC MANY MUSICMANY 4 555 GRAPHIC MASTER GRAPHIC MSTR 5 666 ARC SECURITY ARC SECU 6 777 MINDNSOLES MIND AND SOLES 7 888 REX ENERGY REXX 8 999 THESIS COMPANY THESIS COMP

key left_name right_name name_flag 0 111 ET CETERA SYSTEMS ET CETERA SYS 1 1 222 ODDS AND ENDS ODDSNENDS 0 2 333 MAXIMA COMPANY MAX COMP 1 3 444 MUSIC MANY MUSICMANY 0 4 555 GRAPHIC MASTER GRAPHIC MSTR 1 5 666 ARC SECURITY ARC SECU 1 6 777 MINDNSOLES MIND AND SOLES 0 7 888 REX ENERGY REXX 0 8 999 THESIS COMPANY THESIS COMP 1

3条回答

网友

1楼 · 编辑于 2024-10-05 14:29:58

def abbr(x):
    return ''.join([letter[0] for letter in x.split(' ')])

df['name_flag'] = (df['left_name'].apply(abbr) == df['right_name'].apply(abbr)).astype(int)

输出：

0    1
1    0
2    1
3    0
4    1
5    1
6    0
7    0
8    1


''.join(re.findall(r'^[A-Z]|\s[A-Z]',s)).replace(' ','')

或者

''.join(re.findall(r'\b\w',s))

在函数中也起作用

网友

2楼 · 编辑于 2024-10-05 14:29:58

试试这个：

l = df.left_name.str.findall(r'\b\w')
r = df.right_name.str.findall(r'\b\w')
df['name_flag'] = (l == r).astype(int)

Out[366]:
   key          left_name      right_name  name_flag
0  111  ET CETERA SYSTEMS   ET CETERA SYS          1
1  222      ODDS AND ENDS       ODDSNENDS          0
2  333     MAXIMA COMPANY        MAX COMP          1
3  444         MUSIC MANY       MUSICMANY          0
4  555     GRAPHIC MASTER    GRAPHIC MSTR          1
5  666       ARC SECURITY        ARC SECU          1
6  777         MINDNSOLES  MIND AND SOLES          0
7  888         REX ENERGY            REXX          0
8  999     THESIS COMPANY     THESIS COMP          1

网友

3楼 · 编辑于 2024-10-05 14:29:58

这就行了

def get_acronym(phrase):
    words = phrase.split(' ')
    return ''.join(w[0] for w in words)

df['name_flag'] = df.right_name.map(get_acronym) == df.left_name.map(get_acronym)
df['name_flag'] = df['name_flag'].astype(int)

df输出

   key          left_name      right_name  name_flag
0  111  ET CETERA SYSTEMS   ET CETERA SYS          1
1  222      ODDS AND ENDS       ODDSNENDS          0
2  333     MAXIMA COMPANY        MAX COMP          1
3  444         MUSIC MANY       MUSICMANY          0
4  555     GRAPHIC MASTER    GRAPHIC MSTR          1
5  666       ARC SECURITY        ARC SECU          1
6  777         MINDNSOLES  MIND AND SOLES          0
7  888         REX ENERGY            REXX          0
8  999     THESIS COMPANY     THESIS COMP          1

相关问题更多 >

编程相关推荐

热门问题

热门文章