有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

使用htmlunit的java html内容提取

我有一系列结构相同的HTML文件

让我们以这段代码为例

>     <html>
>     <head>
>     <title>main page</title>
>     </head>
>     <body>
>     <table><tr>
>     <td>content1</td>
>     </tr></table>
>     </body>
>     </html>

我想提取标题标签内容和td标签内容。 如何使用htmlunit实现这一点? 我是新手。请帮帮我


共 (2) 个答案

  1. # 2 楼答案

    请参见HTMLUnit页面中的instructive snippet

    在这里,您首先构建一个客户端,然后检索页面,最后请求标题文本(page.getTitleText()),或者将整个页面作为HTML字符串(page.asXml())获取。然后你可以assertContains在这个字符串上

    还有很多其他选项,比如按id检索元素。 最好自己看看这些例子