使用htmlunit的java html内容提取
我有一系列结构相同的HTML文件
让我们以这段代码为例
> <html>
> <head>
> <title>main page</title>
> </head>
> <body>
> <table><tr>
> <td>content1</td>
> </tr></table>
> </body>
> </html>
我想提取标题标签内容和td标签内容。 如何使用htmlunit实现这一点? 我是新手。请帮帮我
# 1 楼答案
htmlunit是一个测试系统。不是DOM解析器
要将HTML解析为DOM,请使用http://about.validator.nu/htmlparser/和HtmlDocumentBuilder类
一旦你有了
Document
,你可以做myDocument.getElementsByTagName("title")
来找到title元素# 2 楼答案
请参见HTMLUnit页面中的instructive snippet
在这里,您首先构建一个客户端,然后检索页面,最后请求标题文本(
page.getTitleText()
),或者将整个页面作为HTML字符串(page.asXml()
)获取。然后你可以assertContains
在这个字符串上还有很多其他选项,比如按id检索元素。 最好自己看看这些例子