Regex将vary字符串拆分为groupdi

1. (event) [group (artist)] title (form) [addition1] 2. [event] [group (artist)] title (form) (addition1) 3. (tag) [group (artist)] title 4. [group (artist)] title 5. title 6. and something like above, such as 【tag】 [group (artist)] title 【form】

import re regex_patern = ur'([$\[](?P<event>[^$\]]*)[\)\]])?\s*([$\[](?P<type>[^$\](\)\])]*)[\)\]])?\s*(\[(?P<group>[^$\]]*)(\((?P<artist>[^$]*)\))?\])?(?P<title>[^\[\]]*)([$\[](?P<from>[^$\]]*)[\)\]])?(\s*[$\[](?P<more1>[^$\]]*)[\)\]])' p = re.compile(regex_patern) rows= [ '(event) (tag) [group (artist)] title (form) [addition1] [addition2]', '(event) [group (artist)] title (form) [addition1]', '[event] [group (artist)] title (form) (addition1)', '(tag) [group (artist)] title', '[group (artist)] title', 'title', ] for r in rows: r = re.search(p, r) print r.groupdict()

{u'from': 'form', u'more1': 'addition1', u'artist': 'artist', u'title': ' title ', u'group': 'group ', u'type': 'tag', u'event': 'event'} {u'from': 'form', u'more1': 'addition1', u'artist': 'artist', u'title': ' title ', u'group': 'group ', u'type': None, u'event': 'event'} {u'from': 'form', u'more1': 'addition1', u'artist': 'artist', u'title': ' title ', u'group': 'group ', u'type': None, u'event': 'event'} {u'from': None, u'more1': 'group (artist', u'artist': None, u'title': '', u'group': None, u'type': None, u'event': 'tag'} {u'from': None, u'more1': 'group (artist', u'artist': None, u'title': '', u'group': None, u'type': None, u'event': None} --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-5-831c548bc3f0> in <module>() 15 for r in rows: 16 r = re.search(p, r) ---> 17 print r.groupdict() AttributeError: 'NoneType' object has no attribute 'groupdict'

1条回答

网友

1楼 · 发布于 2024-09-28 21:30:37

编辑

看起来（至少在您提供的示例中）您可以正确地匹配整个字符串并将其分组：

^(?:(?:^[\[()](?P<event>[^)\]]+)[)\]](?=.+[\])]$)\s)?(?:[(【](?P<tag>(?<=^[(【])[^】)]+(?=.+[\w】]$)|(?<=\)\s\()[^)]+(?=\)\s\[))[】)]\s)?\[(?:(?P<group>[^(\]]+)\s+\((?P<artist>[^)]+)\)\])\s+)?(?P<title>[^(\n)【]+)(?:\s*[\(【](?P<form>[^)】]+)[)】](?:\s*[\[(](?P<add>[^\])]+)[\])])?(?:\s*[\[(](?P<add2>[^\])]+)[\])])?)?$

DEMO

用于：

import re

rows= [
'(event) (tag) [group (artist)] title (form) [addition1] [addition2]',
'(event) [group (artist)] title (form) [addition1]',
'[event] [group (artist)] title (form) (addition1)',
'(tag) [group (artist)] title',
'[group (artist)] title',
'title',
]

p = re.compile(ur'^(?:(?:^[\[()](?P<event>[^)\]]+)[)\]](?=.+[\])]$)\s)?(?:[(【](?P<tag>(?<=^[(【])[^】)]+(?=.+[\w】]$)|(?<=\)\s\()[^)]+(?=\)\s\[))[】)]\s)?\[(?:(?P<group>[^(\]]+)\s+\((?P<artist>[^)]+)\)\])\s+)?(?P<title>[^(\n)【]+)(?:\s*[\(【](?P<form>[^)】]+)[)】](?:\s*[\[(](?P<add>[^\])]+)[\])])?(?:\s*[\[(](?P<add2>[^\])]+)[\])])?)?$')

for r in rows:
    [m.groupdict() for m in p.finditer(r)]
    print m.groupdict()

提供输出：

{u'event': 'event', u'tag': 'tag', u'group': 'group', u'artist': 'artist', u'title': 'title ', u'form': 'form', u'add': 'addition1', u'add2': 'addition2'} 
{u'event': 'event', u'tag': None, u'group': 'group', u'artist': 'artist', u'title': 'title ', u'form': 'form', u'add': 'addition1', u'add2': None} 
{u'event': 'event', u'tag': None, u'group': 'group', u'artist': 'artist', u'title': 'title ', u'form': 'form', u'add': 'addition1', u'add2': None} 
{u'event': None, u'tag': 'tag', u'group': 'group', u'artist': 'artist', u'title': 'title', u'form': None, u'add': None, u'add2': None} 
{u'event': None, u'tag': None, u'group': 'group', u'artist': 'artist', u'title': 'title', u'form': None, u'add': None, u'add2': None} 
{u'event': None, u'tag': None, u'group': None, u'artist': None, u'title': 'title', u'form': None, u'add': None, u'add2': None}

DEMO

这个正则表达式由几个部分组成：

(?:^[\[()](?P<event>[^)\]]+)[)\]](?=.+[\])]$)\s)?-匹配事件
(?:[(【](?P<tag>(?<=^[(【])[^】)]+(?=.+[\w】]$)|(?<=\)\s$)[^)]+(?=$\s\[))[】)]\s)?-匹配标记
\[(?:(?P<group>[^(\]]+)\s+$(?P<artist>[^)]+)$\])\s+)?-匹配组
(?P<title>[^(\n)【]+)-匹配标题
(?:\s*[\(【](?P<form>[^)】]+)[)】](?:\s*[\[(](?P<add>[^\])]+)[\])])?(?:\s*[\[(](?P<add2>[^\])]+)[\])])?)?-匹配形式和加法

如您所见，除了与title匹配的部分之外，每个部分都以?量词结尾，这意味着零或一。因此，这些部分是可选的，如果有要匹配的片段，它将匹配，但如果没有，它将不会干扰（至少不应该干扰）regex的其余部分的工作方式。这就是为什么它看起来像是匹配“从中间”，而不是“从左到右”。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章