使用htmlunit的java html内容提取

1 年 Questions & Answers 2174

我有一系列结构相同的HTML文件

让我们以这段代码为例

>     <html>
>     <head>
>     <title>main page</title>
>     </head>
>     <body>
>     <table><tr>
>     <td>content1</td>
>     </tr></table>
>     </body>
>     </html>

我想提取标题标签内容和td标签内容。如何使用htmlunit实现这一点？我是新手。请帮帮我

Tags:

共 (2) 个答案

# 1 楼答案

htmlunit是一个测试系统。不是DOM解析器

要将HTML解析为DOM，请使用http://about.validator.nu/htmlparser/和HtmlDocumentBuilder类

一旦你有了Document，你可以做myDocument.getElementsByTagName("title")来找到title元素
# 2 楼答案

请参见HTMLUnit页面中的instructive snippet

在这里，您首先构建一个客户端，然后检索页面，最后请求标题文本（page.getTitleText()），或者将整个页面作为HTML字符串（page.asXml()）获取。然后你可以assertContains在这个字符串上

还有很多其他选项，比如按id检索元素。最好自己看看这些例子

有 Java 编程相关的问题?

使用htmlunit的java html内容提取

共 (2) 个答案

# 1 楼答案

# 2 楼答案