用python和regEx从文件中提取元组

<g id="node841" class="cond_node"><title>SR_AUD_Nbest_List_PlaylistPlayPlaylist_cond</title> <g id="node842" class="prompt_node"><title>SR_AUD_Nbest_List_PlaylistPlayPlaylist_prompt</title> <g id="edge841" class="edge"><title>SR_AUD_Nbest_List_PlaylistPlayPlaylist_cond->SR_AUD_Nbest_List_PlaylistPlayPlaylist_prompt</title> <g id="node848" class="node"><title>SR_AUD_Main_link_51</title> <g id="node841" class="prompt_node"><title>SR_AUD_Nbest_List_PlaylistPlayPlaylist_prompt</title> <g id="node841" class="cmd_node"><title>SR_AUD_Nbest_List_PlaylistPlayPlaylist_cmd</title> <g id="node856" class="exit_node"><title>EXIT_63</title> <g id="node860" class="node"><title>SR_AUD_ConfirmNAPlayPlaylistName_NotAvailable_3</title> <g id="node860" class="node"><title>SR_AUD_ConfirmNAPlayPlaylistName_NotAvailable_4</title><title>SR_AUD_ConfirmNAPlayPlaylistName_NotAvailable_3</title>

<g id="node848" class="node"><title>SR_AUD_Main_link_51</title> <g id="node860" class="node"><title>SR_AUD_ConfirmNAPlayPlaylistName_NotAvailable_3</title> <g id="node860" class="node"><title>SR_AUD_ConfirmNAPlayPlaylistName_NotAvailable_4</title>

2条回答

网友

1楼 · 编辑于 2024-09-30 06:19:38

正如注释中提到的，正则表达式可能不是解析XML的最佳工具。在

尽管如此，您的方法的唯一问题似乎是使用^{}而不是^{}或{a3}，因此只返回第一个匹配项，而不是全部。在

p = r'(<g\sid="\w+"\s+class="node">+.{1,})(?!.+(_cmd|_cond|_prompt|EXIT))'
for match in re.finditer(p, svg):
    print match.group()

但是，请注意，在最后一个例子中，它将捕获整个行，而不仅仅是第一个<title>。在

网友

2楼 · 编辑于 2024-09-30 06:19:38

from bs4 import BeautifulSoup

html="""<g id="node841" class="cond_node"><title>SR_AUD_Nbest_List_PlaylistPlayPlaylist_cond</title>
<g id="node842" class="prompt_node"><title>SR_AUD_Nbest_List_PlaylistPlayPlaylist_prompt</title>
<g id="edge841" class="edge"><title>SR_AUD_Nbest_List_PlaylistPlayPlaylist_cond&#45;&gt;SR_AUD_Nbest_List_PlaylistPlayPlaylist_prompt</title>
<g id="node848" class="node"><title>SR_AUD_Main_link_51</title>
<g id="node841" class="prompt_node"><title>SR_AUD_Nbest_List_PlaylistPlayPlaylist_prompt</title>
<g id="node841" class="cmd_node"><title>SR_AUD_Nbest_List_PlaylistPlayPlaylist_cmd</title>
<g id="node856" class="exit_node"><title>EXIT_63</title>
<g id="node860" class="node"><title>SR_AUD_ConfirmNAPlayPlaylistName_NotAvailable_3</title>
<g id="node860" class="node"><title>SR_AUD_ConfirmNAPlayPlaylistName_NotAvailable_4</title><title>SR_AUD_ConfirmNAPlayPlaylistName_NotAvailable_3</title>"""


soup = BeautifulSoup(html)

a=soup.findAll("g")

b=[(i.get('id'),i.title.text) for i in a]

print b

输出：

^{pr2}$

1.找到所有标签

soup.findAll("g")

2.您可以通过将标记视为字典来访问标记的属性。在

^{4}$

给您所需的id，title.text给您文本。在

相关问题更多 >

编程相关推荐

热门问题

热门文章