HTMLParser：获取在

(...) <tr> <td class='resultLabel'> Scan Syntax </td> <td></td> </tr> <tr> <td class='resultLabel'>Show Text</td> <td></td> </tr> <tr> <td class='resultLabel'> Snapshot </td> <td> 05/05/15 11:25:16    Succeeded </td> </tr> <tr> <td class='resultLabel'>Snapshot OS Image</td> <td>Not Supported</td> </tr> <tr> <td class='resultLabel'>Telnet/SSH Session</td> <td> 04/28/15 16:11:40    Failed </td> </tr>

1条回答

网友
1楼 · 发布于 2024-09-28 17:01:37

有不同的方法。我还没有找到一个真正让我满意的HTMLParser，但我还在找！以下是一些想法：
只需计算找到starttag<td>的次数，然后接受来自数据处理程序的数据
稍微改进的版本：Count starttag <td>，它有一个属性class='resultLabel'
更好的方法是：搜索嵌套的<td>s
如果要检测页面中的多个字段，可以实现state machine，以检测特定的标记序列。
您还可以获取所有标记并构造一个树结构，这将允许您直接寻址<td>所在的分支。这就是lxml所做的：只需一个步骤，它就可以解析HTML文档并将其转换为树结构，然后可以将其导航到包含所需的<td>的分支。在
主要问题是什么？很多很多网站都有不正确的页面。因此，它取决于解析器是否具有容错能力并接受某种陌生性。大多数浏览器都会悄悄地接受这种奇怪的现象，但是您可以通过浏览器的调试器进行检查，或者将url发送到w3c的验证服务。在

相关问题更多 >

编程相关推荐

热门问题

热门文章