python中基于字符串值的数据标注

job_hilfskraft = ['bretreuungskraft', 'pflegehilfskraft', 'pflegehelfer', 'krankenpflegehelfer','altenpflegerhelfer', 'pflegeassistent','pflegeassistenz','pflegehilfskräfte', 'pflegeassistenten', 'altenpflegehilfskraft', 'pflegeassistentin','altenpflegehelfer'] job_fachkraft = ['pflegefachkraft', 'altenpfleger','pflegefachkräfte','altenpflegerin', 'pflegekraft', 'krankenpfleger', 'krankenpfleger', 'altenpflegerin', 'altenpflegefachkraft', 'pflegemitarbeiter'] job_leitung = ['pflegedienstleitung', 'pflegedienstleiter', 'wohnbereichsleiter', 'einrichtungsleiter'] job_sonstige = ['küchenhilfskraft', 'reinigungskraft', 'küchenleiter', 'servicekraft', 'spülkraft', 'empfangskraft']

df['job_label'] = "" df['job_label'][df.job_name.str.contains('|'.join(job_hilfskraft))] = 'hilfskraft' df['job_label'][df.job_name.str.contains('|'.join(job_leitung))] = 'leitung' df['job_label'][df.job_name.str.contains('|'.join(job_sonstige))] = 'sonstige' df['job_label'][df.job_name.str.contains('|'.join(job_fachkraft))] = 'fachkraft'

1条回答

网友

1楼 · 发布于 2024-09-19 23:36:18

这将解决您当前的问题。你知道吗

df['job_label'] = ""

df.loc[df.job_name.str.contains('|'.join(job_hilfskraft)), 'job_label'] = 'hilfskraft'
df.loc[df.job_name.str.contains('|'.join(job_leitung)), 'job_label'] = 'leitung'
df.loc[df.job_name.str.contains('|'.join(job_sonstige)), 'job_label'] = 'sonstige'
df.loc[df.job_name.str.contains('|'.join(job_fachkraft)), 'job_label'] = 'fachkraft'

我可能会这样写：

lookup = {'hilfskraft': ['bretreuungskraft', 'pflegehilfskraft', 'pflegehelfer', 'krankenpflegehelfer','altenpflegerhelfer', 'pflegeassistent','pflegeassistenz','pflegehilfskräfte', 'pflegeassistenten', 'altenpflegehilfskraft', 'pflegeassistentin','altenpflegehelfer'],
'fachkraft': ['pflegefachkraft', 'altenpfleger','pflegefachkräfte','altenpflegerin', 'pflegekraft', 'krankenpfleger', 'krankenpfleger', 'altenpflegerin', 'altenpflegefachkraft', 'pflegemitarbeiter'],
'leitung': ['pflegedienstleitung', 'pflegedienstleiter', 'wohnbereichsleiter', 'einrichtungsleiter'],
'sonstige': ['küchenhilfskraft', 'reinigungskraft', 'küchenleiter', 'servicekraft', 'spülkraft', 'empfangskraft']}


df['job_label'] = ""

for replace, keywords in lookup.items():
    for k in keywords:
        df.loc[df.job_name.str.contains(k, case=False, regex=False), 'job_label'] = replace

相关问题更多 >

编程相关推荐

热门问题

热门文章