有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java使用jsoup将html转换为纯文本时,如何保留换行符?

我有以下代码:

 public class NewClass {
     public String noTags(String str){
         return Jsoup.parse(str).text();
     }


     public static void main(String args[]) {
         String strings="<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN \">" +
         "<HTML> <HEAD> <TITLE></TITLE> <style>body{ font-size: 12px;font-family: verdana, arial, helvetica, sans-serif;}</style> </HEAD> <BODY><p><b>hello world</b></p><p><br><b>yo</b> <a href=\"http://google.com\">googlez</a></p></BODY> </HTML> ";

         NewClass text = new NewClass();
         System.out.println((text.noTags(strings)));
}

我得到的结果是:

hello world yo googlez

但我想打破界限:

hello world
yo googlez

我已经看过了jsoup's TextNode#getWholeText(),但我不知道如何使用它

如果在我解析的标记中有一个<br>,我如何在结果输出中获得换行符


共 (6) 个答案

  1. # 1 楼答案

    对于更复杂的HTML,上述解决方案都不是很有效;我能够成功地进行转换,同时通过以下方式保留换行符:

    Document document = Jsoup.parse(myHtml);
    String text = new HtmlToPlainText().getPlainText(document);
    

    (版本1.10.3)

  2. # 2 楼答案

    使用jsoup尝试以下操作:

    public static String cleanPreserveLineBreaks(String bodyHtml) {
    
        // get pretty printed html with preserved br and p tags
        String prettyPrintedBodyFragment = Jsoup.clean(bodyHtml, "", Whitelist.none().addTags("br", "p"), new OutputSettings().prettyPrint(true));
        // get plain text with preserved line breaks by disabled prettyPrint
        return Jsoup.clean(prettyPrintedBodyFragment, "", Whitelist.none(), new OutputSettings().prettyPrint(false));
    }
    
  3. # 3 楼答案

    Jsoup.parse("A\nB").text();
    

    你有输出

    "A B" 
    

    而不是

    A
    
    B
    

    为此,我使用:

    descrizione = Jsoup.parse(html.replaceAll("(?i)<br[^>]*>", "br2n")).text();
    text = descrizione.replaceAll("br2n", "\n");
    
  4. # 4 楼答案

    保留换行符的真正解决方案应如下所示:

    public static String br2nl(String html) {
        if(html==null)
            return html;
        Document document = Jsoup.parse(html);
        document.outputSettings(new Document.OutputSettings().prettyPrint(false));//makes html() preserve linebreaks and spacing
        document.select("br").append("\\n");
        document.select("p").prepend("\\n\\n");
        String s = document.html().replaceAll("\\\\n", "\n");
        return Jsoup.clean(s, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
    }
    

    它满足以下要求:

    1. 如果原始html包含换行符(\n),则会保留它
    2. 如果原始html包含br或p标记,它们将被转换为换行符(\n)
  5. # 5 楼答案

    Jsoup.clean(unsafeString, "", Whitelist.none(), new OutputSettings().prettyPrint(false));
    

    我们在这里使用这种方法:

    public static String clean(String bodyHtml,
                           String baseUri,
                           Whitelist whitelist,
                           Document.OutputSettings outputSettings)
    

    通过传递它Whitelist.none(),我们确保删除所有HTML

    通过传递new OutputSettings().prettyPrint(false),我们可以确保输出没有重新格式化,并且保留了换行符

  6. # 6 楼答案

    在jsoupv1上。11.2,我们现在可以使用Element.wholeText()

    示例代码:

    String cleanString = Jsoup.parse(htmlString).wholeText();
    

    user121196'sanswer仍然有效。但是wholeText()保留了文本的对齐