正则表达式不会从日志文件中提取整个id吗？

id:A2uhasan30hamwix١٦٠٢٢٧١٣٣٣١١٣٥٤ id:A2uhasan30hamwix160212145302428 id:A2uhasan30hamwix١٦٠٢٠٩١٣٠١٥٠٠١١ id:A2uhasan30hamwix١٦٠٢٠٩١٦٤٧٣٩٧٣٢ id:A2uhasan30hamwix١٦٠٢٠٨١٩٢٨٠١٩٠٧ id:A2uhasan30hamwix160207145023750

2015-11-30T23:58:13.760950+00:00 calxxx enexxxxce[10476]: INFO consume_essor: user:<<"ailxxxied">> callee_num:<<"+144442567413">> id:<<"A2uhasan30hamwix١٦٠٢٠٨١٩٢٨٠١٩٠٧">> credits:0.0 result:ok provider:sipovvvv1.yv.vs

3条回答

网友

1楼 · 编辑于 2024-10-02 00:28:08

string = '''
id:A2uhasan30hamwix١٦٠٢٢٧١٣٣٣١١٣٥٤ 
id:A2uhasan30hamwix160212145302428 
id:A2uhasan30hamwix١٦٠٢٠٩١٣٠١٥٠٠١١ 
id:A2uhasan30hamwix١٦٠٢٠٩١٦٤٧٣٩٧٣٢ 
id:A2uhasan30hamwix١٦٠٢٠٨١٩٢٨٠١٩٠٧ 
id:A2uhasan30hamwix160207145023750
'''
import re
reObj = re.compile(r'id:.*')
ans = reObj.findall(string,re.DOTALL)

print(ans)

输出：

['id:A2uhasan30hamwix160212145302428 ', 
 'id:A2uhasan30hamwix١٦٠٢٠٩١٣٠١٥٠٠١١ ', 
 'id:A2uhasan30hamwix١٦٠٢٠٩١٦٤٧٣٩٧٣٢ ', 
 'id:A2uhasan30hamwix١٦٠٢٠٨١٩٢٨٠١٩٠٧ ', 
 'id:A2uhasan30hamwix160207145023750']

网友

2楼 · 编辑于 2024-10-02 00:28:08

要解决的三件事：

id而不是sid
使用\d代替0-9到also catch the arabic numerals
无需在sid命名组中添加额外的捕获组

固定版本：

id:(<<")?(?P<sid>[A-Za-z\d_.+]+)

网友

3楼 · 编辑于 2024-10-02 00:28:08

根据我们在聊天中讨论的内容，发布解决方案：

import codecs
import re
RE_SID = re.compile(ur'id:(<<")?(?P<sid>[A-Za-z\d._+]*)', re.U) # \d used to match non-ASCII digits, too
input_file = codecs.open(cfg.log_file, encoding='utf-8')  # Read the file with UTF8 encoding
for line in input_file: 
    fields = line.strip().split(u' ') # u prefix is important!
    if len(fields) >= 11: 
    try: 
        # ...... 
        sid = RE_SID.search(fields[7]).group('sid') # Or check if there is a match first

相关问题更多 >

编程相关推荐

热门问题

热门文章