带德语字母的java Html到Pdf

4 月 Questions & Answers 569

我正在使用openhtmltopdf将html转换为pdf。目前，如果html包含德语字符，比如ä，ö，ü，我会遇到一个例外

PdfRendererBuilder builder = new PdfRendererBuilder(); builder.useFastMode(); builder.withHtmlContent(html,"file://localhost/"); builder.toStream(out); builder.run();

org.xml.sax.SAXParseException; lineNumber: 17; columnNumber: 31; The entity "auml" was referenced, but not declared.

这里是我的html：

<html> <head> <meta charset="UTF-8" /> </head> <body> käse </body> </html>

出口的单词是“käse”（奶酪）

更新

我尝试过使用实体解析器，方法如下：

DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance(); DocumentBuilder builder=null; try{ builder=factory.newDocumentBuilder(); ByteArrayInputStream input=new ByteArrayInputStream(html.getBytes("UTF-8")); builder.setEntityResolver(FSEntityResolver.instance()); org.w3c.dom.Document doc=builder.parse(input); }catch(Exception e){ logger.error(e.getMessage(),e); }

但我在“解析”时仍然遇到同样的异常

# 1 楼答案

看起来您需要提供DTD或将实体名称auml替换为相应的十六进制或十进制值，即ä或ä。见A.2. Entity Sets和HTML 4 Entity Names

html内容如下所示：

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html [
        <!ENTITY auml "&#228;">
]>
<html>
    <head>
    </head>
    <body>
        k&auml;se
    </body>
</html>

或者，您可以运行html字符串，并用相应的dec/hex值替换实体名称（这应该可以），或者在将DTD传递给pdf生成器之前，将DTD预先添加到html字符串中

更新

您可能想尝试一下jsoup库。它解析并为您提供org.w3c.dom.Document，例如

Document jsoupDoc = Jsoup.parse(html); // org.jsoup.nodes.Document
W3CDom w3cDom = new W3CDom(); // org.jsoup.helper.W3CDom
org.w3c.dom.Document w3cDoc = w3cDom.fromJsoup(jsoupDoc);

然后可以像这样将w3cDoc传递给pdf生成器

PdfRendererBuilder builder = new PdfRendererBuilder();
builder.withW3cDocument(w3cDoc, "file://localhost/");

Python中文网

有 Java 编程相关的问题?

带德语字母的java Html到Pdf

共 (1) 个答案

# 1 楼答案