有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

在java中从html文件检索文本

我想用java从html文件中获取文本

我的html文件是:

<body>

<p>vishal</p>
<strong>patel</strong>
<bold >vishal patel

我想这样输出

vishal 

patel

vishal patel

怎么做请帮帮我


共 (2) 个答案

  1. # 1 楼答案

    最好使用html解析器。。。。我更喜欢使用JSoup解析器(开源软件包)

    import org.jsoup.Jsoup;
    public class HTMLUtils {
    
        public static String extractText(Reader reader) throws IOException {
            StringBuilder sb = new StringBuilder();
            BufferedReader br = new BufferedReader(reader);
            String line;
            while ((line = br.readLine()) != null) {
                sb.append(line);
            }
            String textOnly = Jsoup.parse(sb.toString()).text();
            return textOnly;
        }
    
        public final static void main(String[] args) throws Exception {
            FileReader reader = new FileReader("C:/RealHowTo/topics/java-language.html");
            System.out.println(HTMLUtils.extractText(reader));
        }
    }
    
  2. # 2 楼答案

    我使用了一个名为JSoup的库
    从HTML文件中检索纯文本部分非常简单
    很简单:

    Jsoup.parse(html).text();
    

    提供HTML文件中的文本