将dataframe列数据分类为拉丁文/非拉丁文

1条回答

网友

1楼 · 发布于 2024-05-19 08:37:30

这取决于需要什么-如果检查任何值是否有非拉丁值或所有值是否有带^{}的字符串：

df = pd.DataFrame({'name':[u"هاها",'a',u"aهاها"]})

#https://stackoverflow.com/a/3308844
import unicodedata as ud
latin_letters= {}
def is_latin(uchr):
    try: return latin_letters[uchr]
    except KeyError:
         return latin_letters.setdefault(uchr, 'LATIN' in ud.name(uchr))

def only_roman_chars(unistr):
    return all(is_latin(uchr)
           for uchr in unistr
           if uchr.isalpha()) 

#check if any
df['new1'] = np.where(df['name'].map(only_roman_chars), 'Latin','Non-Latin')
#check if all
df['new2'] = np.where(df.name.str.contains('[a-zA-Z]'), 'Latin','Non-Latin')
print (df)

    name       new1       new2
0   هاها  Non-Latin  Non-Latin
1      a      Latin      Latin
2  aهاها  Non-Latin      Latin

相关问题更多 >

编程相关推荐

热门问题

热门文章

将dataframe列数据分类为拉丁文/非拉丁文

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >