使用正则表达式从文本中提取特定字母并与字典进行比较

def environmentcode(self): idx = self.name.find('-') if idx > -1: if self.name in ENVIRONMENTCODE: return ENVIRONMENTCODE else: return NULLCODE else: return "Not Found"

3条回答

网友

1楼 · 编辑于 2024-10-01 07:43:21

我们可以使用.find获取码字（如果存在），然后使用字典将码字映射到它的代码号。我们可以使用dictionary.get方法返回缺失或未知码字的空代码。如果遇到错误数据，此版本将返回None：名称不包含'-'，或者名称在'-'之前没有8或5个字母。你知道吗

env_code = {
    'ICS': '1',
    'IGW': '2',
    'RTL': '3',
    'TDZ': '4',
}

null_code = '9'

def get_env_code(name):
    idx = name.find('-')
    if idx == 8:
        # code may be valid
        code = name[idx-3:idx]
    elif idx == 5:
        # code is missing
        code = ''
    else:
        # Bad name
        return None

    return env_code.get(code, null_code)

# test

data = [
    'AABBBICS-CCCDDD001',
    'AABBBIGW-CCCDDD001',
    'AABBBRTL-CCCDDD001',
    'AABBBTDZ-CCCDDD001',
    'USNYCRTL-LANDCE001',
    'AABBBXYZ-CCCDDD001',
    'AABBB-CCCDDD001',
    'BADDATA',
]

for s in data:
    print(s, get_env_code(s))

输出

AABBBICS-CCCDDD001 1
AABBBIGW-CCCDDD001 2
AABBBRTL-CCCDDD001 3
AABBBTDZ-CCCDDD001 4
USNYCRTL-LANDCE001 3
AABBBXYZ-CCCDDD001 9
AABBB-CCCDDD001 9
BADDATA None

下面是一个更简单的版本，它返回空代码，而不是针对坏数据的None。你知道吗

def get_env_code(name):
    idx = name.find('-')
    code = name[idx-3:idx] if idx == 8 else ''
    return env_code.get(code, null_code)

网友

2楼 · 编辑于 2024-10-01 07:43:21

如果您只是检查在每个测试字符串中是否找到ENVIRONMENTCODE的成员，那么就不需要regex。只需使用python关键字in，例如

ENVIRONMENTCODE = {
    'ICS': '1',
    'IGW': '2',
    'RTL': '3',
    'TDZ': '4'
}

NULLCODE = {
    'NULL': '9'
}

def environment_code(test_string, code_dict):
    if '-' not in test_string:
        return 'no dash'
    for code, value in code_dict.items():
        if code in test_string:
            return value
    return NULLCODE['NULL']


to_test = ['AABBBICS-CCCDDD001',
           'AABBBIGW-CCCDDD001',
           'AABBBRTL-CCCDDD001',
           'AABBBTDZ-CCCDDD001']
for test_str in to_test:
    print(environment_code(test_str, ENVIRONMENTCODE))

原始代码的问题在于

test_string in code_dict

它只检查被测字符串和字典中的键之间的精确匹配。你知道吗

网友

3楼 · 编辑于 2024-10-01 07:43:21

我的建议是：

def environmentcode(s):
    if "-" not in s:  #(**)
        return None   #(**)
    h,t=s.split("-")
    code=h.strip()[5:]
    return ENVIRONMENTCODE.get(code,9)   

data="AABBBICS-CCCDDD001 AABBBIGW-CCCDDD001 AABBBRTL-CCCDDD001 AABBBTDZ-CCCDDD001 USNYCRTL-LANDCE001 AABBB-CCCDDD001 something"

for s in data.split():
    print(s," >",environmentcode(s))

Output:
AABBBICS-CCCDDD001  > 1
AABBBIGW-CCCDDD001  > 2
AABBBRTL-CCCDDD001  > 3
AABBBTDZ-CCCDDD001  > 4
USNYCRTL-LANDCE001  > 3
AABBB-CCCDDD001  > 9
something  > None

#                            -
# Filtering text with regex. In this case, (**) not needed.
text="""AABBBICS-CCCDDD001 Alice was beginning to get very tired of sitting by her sister on the bank... AABBBIGW-CCCDDD001 AABBBRTL-CCCDDD001 AABBBTDZ-CCCDDD001 USNYCRTL-LANDCE001 AABBB-CCCDDD001 AABBBXYZ-CCCDDD001 something"""

import re

data= re.findall(r"\b[A-Z]{5,8}-[A-Z]{6}001\b",text)
for s in data:
    print(s," >",environmentcode(s))

相关问题更多 >

编程相关推荐

热门问题

热门文章