使用正则表达式从文件名中提取6位数字

df = new_df_meta['file'] len(df) r = re.compile('[0-9][0-9][0-9][0-9][0-9][0-9]') n = re.compile(r'\b\d{6,6}\b') newlist = list(filter(r.findall, df)) len(newlist) newlistres0 = [(sub.split('_')[2]) for sub in newlist] newlistres1 = [(sub.split('_')[1]) for sub in newlist] newlistres2 = [(sub.split('_')[0]) for sub in newlist] newlistres = newlistres0 + newlistres1 + newlistres2

IndexError Traceback (most recent call last) <ipython-input-146-20c18449951e> in <module> 13 newlistres1 = [(sub.split('_')[1]) for sub in newlist] 14 newlistres2 = [(sub.split('_')[0]) for sub in newlist] ---> 15 newlistres3 = [(sub.split('_')[3]) for sub in newlist] 16 # newlistres4 = [(sub.split('_')[4]) for sub in newlist] 17 <ipython-input-146-20c18449951e> in <listcomp>(.0) 13 newlistres1 = [(sub.split('_')[1]) for sub in newlist] 14 newlistres2 = [(sub.split('_')[0]) for sub in newlist] ---> 15 newlistres3 = [(sub.split('_')[3]) for sub in newlist] 16 # newlistres4 = [(sub.split('_')[4]) for sub in newlist] 17 IndexError: list index out of range

1条回答

网友

1楼 · 发布于 2024-10-02 02:29:59

问题是\b永远不会与_匹配

您必须搜索下划线，后跟6位数字，后跟下划线，然后仅提取匹配的数字

searcher = re.compile(r"(?:_|^)(\d{6})(?:_|$)")

(?:)表示非捕获组
_|^匹配字符串前面的下划线或开头
_|$匹配字符串末尾的下划线或

现在您只需遍历文件列表；没有必要对filter之类的东西着迷

newlistres = []
for filename in df:
    m = searcher.search(filename)
    if m is None:
        continue
    newlistres.append(m.group(1))

相关问题更多 >

编程相关推荐

热门问题

热门文章