有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java将结束标记添加到HtmleElement(HtmlUnit)

我想将HTML页面转换为pdf。但HtmlPage有很多标记尚未关闭,如:

< hr >
< br >

因此,我无法创建Pdf。如何在Java上使用HtmlUnit关闭这些标记。我想要的是:

<hr />
<br /> 

谢谢


共 (3) 个答案

  1. # 1 楼答案

    谢谢你的回答,我错了。问题不在于这些html标记。因为我想要转换的htmlpage包含非法的xml字符,所以我无法转换它

    我通过使用XMLChar找到了解决方案。isValidXerces库的方法。 此外,我还必须用以下代码删除htmlpage的所有脚本样式标记:

    final DomNodeList<HtmlElement> scriptElements = html.getElementsByTagName("script");
    if (!scriptElements.isEmpty()){
        for (HtmlElement scriptElement : scriptElements){   
            scriptElement.removeAllChildren();
        }
    }
    
  2. # 2 楼答案

    您可以使用HTML Tidy来更正HTML。Java库是JTidy。JTidy可以配置为生成XHTML