删除数据框中具有重复字符的行

Address1 Address2 Address3 Address4 0 High Street Park Avenue St. John’s Road The Grove 1 wssssss The Crescent tyutyut Mill Road 2 qfdgfdgdg dddfffff qdffgfdgfggfbvbvbv sefsdfdyuytutu 3 Green Lane Highfield Road Springfield Road School Lane 4 Kingsway Stanley Road George Street Albert Road 5 Church Street New Street Queensway Broadway 6 qaaaaass mjkhjk chfghfghh fghfhfh

import pandas as pd import numpy as np data = {'Address1': ['High Street', 'wssssss', 'qfdgfdgdg', 'Green Lane', 'Kingsway', 'Church Street', 'qaaaaass'], 'Address2': ['Park Avenue', 'The Crescent', 'dddfffff', 'Highfield Road', 'Stanley Road', 'New Street', 'mjkhjk'], 'Address3': ['St. John’s Road', 'tyutyut', 'qdffgfdgfggfbvbvbv', 'Springfield Road', 'George Street', 'Queensway', 'chfghfghh'], 'Address4': ['The Grove', 'Mill Road', 'sefsdfdyuytutu', 'School Lane', 'Albert Road', 'Broadway', 'fghfhfh']} address_details = pd.DataFrame(data) #Code to delete the data for the identified patterns print(address_details)

Address1 Address2 Address3 Address4 0 High Street Park Avenue St. John’s Road The Grove 1 Green Lane Highfield Road Springfield Road School Lane 2 Kingsway Stanley Road George Street Albert Road 3 Church Street New Street Queensway Broadway

1条回答

网友

1楼 · 发布于 2024-09-23 22:28:29

用str.contains和loc试着用agg：

print(address_details.loc[~address_details.agg(lambda x: x.str.contains(r"(.)\1+\b"), axis=1).any(1)])

输出：

        Address1        Address2          Address3     Address4
0    High Street     Park Avenue   St. John’s Road    The Grove
3     Green Lane  Highfield Road  Springfield Road  School Lane
4       Kingsway    Stanley Road     George Street  Albert Road
5  Church Street      New Street         Queensway     Broadway

或者，如果您关心索引：

print(address_details.loc[~address_details.agg(lambda x: x.str.contains(r"(.)\1+\b"), axis=1).any(1)].reset_index(drop=True))

输出：

        Address1        Address2          Address3     Address4
0    High Street     Park Avenue   St. John’s Road    The Grove
1     Green Lane  Highfield Road  Springfield Road  School Lane
2       Kingsway    Stanley Road     George Street  Albert Road
3  Church Street      New Street         Queensway     Broadway

编辑：

仅适用于小写字母，请尝试：

print(address_details.loc[~address_details.agg(lambda x: x.str.contains(r"([a-z]+)\1{1,}\b"), axis=1).any(1)].reset_index(drop=True))

相关问题更多 >

编程相关推荐

热门问题

热门文章