如何在Pandas数据库中找到英汉组合记录

FirstName LastName jocovich nadhal smith pointing 西德哈斯 supreet yuvi 雷迪 bsreddy rakshita sreeja 巴尔加维雷迪西德哈斯 Cédric LEMARCHAND Radosław Piotrowski

2条回答

网友

1楼 · 编辑于 2024-09-29 17:49:55

试试这个，逻辑就是检查字符串是否只能用ASCII字符编码。你知道吗

# -*- coding: utf-8 -*-
df = pd.DataFrame({"FirstName":["jocovich","smith"," 西德哈斯","yuvi"," bsreddy","sreeja"],"LastName":["nadhal","pointing","supreet","雷迪","rakshita","巴尔加维"],"blah":["example","example","example","example","example","example"]})


def isEnglish(s):
    o = list(s)
    ot = []
    for n in o:
        try:
            n.encode(encoding='utf-8').decode('ascii')
        except UnicodeDecodeError:
            ot.append(False)
        else:
            ot.append(True)

    if ot==[True,False] or ot == [False,True]:
        return True
    else:
        return False


output = df[df[["FirstName","LastName"]].apply(lambda x: isEnglish(x),axis=1)]

输出

  FirstName LastName     blah
2      西德哈斯  supreet  example
3      yuvi       雷迪  example
5    sreeja     巴尔加维  example

网友

2楼 · 编辑于 2024-09-29 17:49:55

你可以像我一样搜索unicodes。也可以反转匹配：

df.query("FirstName.str.contains(r'[\u4e00-\u9FFF]', regex=True) or LastName.str.contains(r'[\u4e00-\u9FFF]', regex=True)") 

or 

df[(df['FirstName'].str.contains(r'[\u4e00-\u9FFF]', regex=True)) | ( df['LastName'].str.contains(r'[\u4e00-\u9FFF]', regex=True))]

或者不匹配中文名字和姓氏：

df[((df['FirstName'].str.contains(r'[\u4e00-\u9FFF]', regex=True)) | ( df['LastName'].str.contains(r'[\u4e00-\u9FFF]', regex=True))) & (~df['FirstName'].str.contains(r'[\u4e00-\u9FFF]', regex=True) | (~df['LastName'].str.contains(r'[\u4e00-\u9FFF]', regex=True)))]

输出：

  FirstName LastName
2      西德哈斯  supreet
3      yuvi       雷迪
5    sreeja     巴尔加维

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在Pandas数据库中找到英汉组合记录

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >