如何防止短字符串被添加到

def getEmails(freeText): r = re.compile(("([a-z0-9!#$%&'*+\/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+\/=?^_`" "{|}~-]+)*(@|\sat\s)(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?(\.|" "\sdot\s))+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?)")) results = r.findall(freeText) myset = set() # USING A SET AVOIDS DUPLICATES for x in results: if len(x)>2: myset.add(str(x)) return myset

2条回答

网友

1楼 · 编辑于 2024-10-03 21:35:37

如果仔细查看您发送的链接（第28行）中的程序，您可以看到它们只使用正则表达式结果元组的第一个元素

所以你可能想改变这一点：

for x in results:
    if len(x)>2:
        myset.add(str(x))

分为：

for x in results:        
    if len(x[0])>2:
        myset.add(x[0])

…或者只是换个正则表达式

网友

2楼 · 编辑于 2024-10-03 21:35:37

你不需要检查长度。在两个捕捉组之间转入非捕捉组，如下所示

([a-z0-9!#$%&'*+\/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+\/=?^_`{|}~-]+)*(?:@|\sat\s)(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?(?:\.|\sdot\s))+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?)
                                                                   ^                                              ^
                                                                   |                                              |

DEMO

相关问题更多 >

编程相关推荐

热门问题

热门文章