Python：如果属性匹配，则获取html标记之间的数据并将其放入lis

...... ...... <tr> <td color="white" style="color:black; bgcolor="#ffff00">Adam</th> <td color="white" style="color:white; bgcolor="#ff9900">450231</th> <td color="white" style="color:black; bgcolor="#cc0000">658902</th> </tr> ....... ....... <tr> <td color="white" style="color:black; bgcolor="#ffff00">John</th> <td color="white" style="color:white; bgcolor="#ff9900">8734658</th> <td color="white" style="color:black; bgcolor="#cc0000">90865</th> </tr> ....... .......

1条回答

网友

1楼 · 发布于 2024-09-28 03:18:29

您的录制标志似乎始终处于打开状态，但初始化时除外。您可能需要在适当的时候将其重置为零。因为标记是为所有标记设置的，所以您将始终在列表中附加数据。这主要是因为您的'th'标记在HTML中不存在。先更正HTML。在

编辑：只要读到HTML不在你的控制之下。我不确定签入'th'结束标记是否会成功。尝试在endtag中打印标记。如果不是th，那么控制就永远达不到。不如用正则表达式来匹配它。如果beautiful soup无法解析它，则可能需要使用正则表达式。在


pattern = '<td.*?bgcolor="#ff9900".*?>(.*?)</th>'
re.findall(pattern, html)

会给你结果的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章