java使用jsoup将html转换为纯文本时，如何保留换行符？

3 月，4 周 Questions & Answers 66517

我有以下代码：

 public class NewClass {
     public String noTags(String str){
         return Jsoup.parse(str).text();
     }


     public static void main(String args[]) {
         String strings="<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN \">" +
         "<HTML> <HEAD> <TITLE></TITLE> <style>body{ font-size: 12px;font-family: verdana, arial, helvetica, sans-serif;}</style> </HEAD> <BODY><p><b>hello world</b></p><p><br><b>yo</b> <a href=\"http://google.com\">googlez</a></p></BODY> </HTML> ";

         NewClass text = new NewClass();
         System.out.println((text.noTags(strings)));
}

我得到的结果是：

hello world yo googlez

但我想打破界限：

hello world
yo googlez

我已经看过了jsoup's TextNode#getWholeText()，但我不知道如何使用它

如果在我解析的标记中有一个<br>，我如何在结果输出中获得换行符

Tags:

共 (6) 个答案

# 1 楼答案
对于更复杂的HTML，上述解决方案都不是很有效；我能够成功地进行转换，同时通过以下方式保留换行符：
```
Document document = Jsoup.parse(myHtml);
String text = new HtmlToPlainText().getPlainText(document);
```
（版本1.10.3）

# 2 楼答案

使用jsoup尝试以下操作：

public static String cleanPreserveLineBreaks(String bodyHtml) {

    // get pretty printed html with preserved br and p tags
    String prettyPrintedBodyFragment = Jsoup.clean(bodyHtml, "", Whitelist.none().addTags("br", "p"), new OutputSettings().prettyPrint(true));
    // get plain text with preserved line breaks by disabled prettyPrint
    return Jsoup.clean(prettyPrintedBodyFragment, "", Whitelist.none(), new OutputSettings().prettyPrint(false));
}

# 3 楼答案

与

Jsoup.parse("A\nB").text();

你有输出

"A B"

而不是

A

B

为此，我使用：

descrizione = Jsoup.parse(html.replaceAll("(?i)<br[^>]*>", "br2n")).text();
text = descrizione.replaceAll("br2n", "\n");

# 4 楼答案

保留换行符的真正解决方案应如下所示：

public static String br2nl(String html) {
    if(html==null)
        return html;
    Document document = Jsoup.parse(html);
    document.outputSettings(new Document.OutputSettings().prettyPrint(false));//makes html() preserve linebreaks and spacing
    document.select("br").append("\\n");
    document.select("p").prepend("\\n\\n");
    String s = document.html().replaceAll("\\\\n", "\n");
    return Jsoup.clean(s, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
}

它满足以下要求：

如果原始html包含换行符（\n），则会保留它
如果原始html包含br或p标记，它们将被转换为换行符（\n）

# 5 楼答案

Jsoup.clean(unsafeString, "", Whitelist.none(), new OutputSettings().prettyPrint(false));

我们在这里使用这种方法：

public static String clean(String bodyHtml,
                       String baseUri,
                       Whitelist whitelist,
                       Document.OutputSettings outputSettings)

通过传递它Whitelist.none()，我们确保删除所有HTML

通过传递new OutputSettings().prettyPrint(false)，我们可以确保输出没有重新格式化，并且保留了换行符

# 6 楼答案
在jsoupv1上。11.2，我们现在可以使用Element.wholeText()

示例代码：
```
String cleanString = Jsoup.parse(htmlString).wholeText();
```
user121196'sanswer仍然有效。但是wholeText()保留了文本的对齐

Python中文网

有 Java 编程相关的问题?