有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java如何使用Jsoup从html源代码中捕获一个特定文本?

我尝试了以下解决方案:

  1. How to extract text of paragraph from html using Jsoup?
  2. jsoup how to extract this text

但这两个例子都使用标签中的文本

我在html web搜索中有一段独特的代码:

enter image description here

我需要的是使用d.href变量附带的链接

我试过这样的代码:

  Elements link = jSoupConnection.select(":contains(d.href)");  
  Elements link = jSoupConnection.select("#d.href");
  Elements link = jSoupConnection.getElementsByAttributeValueContaining("d.href","google");

但到目前为止,它们都不起作用

我还试图在http://jsoup.org/cookbook/做一项研究,但也没有成功。有没有比Jsoup更有经验的人能帮我一下?? 提前谢谢


共 (1) 个答案

  1. # 1 楼答案

    如果您的文本没有任何可以通过Jsoup select元素捕获的标记,您应该下载hole页面(您可以使用Elements link = jSoupConnection.select("*");)然后在应用程序上将其作为一个文本文件打开以检索所需内容。如果下载的文件太大,这是我的问题,尝试限制下载的文件大小;您可以在这些链接上找到更多详细信息:

    1. Limiting file size creation with java
    2. How to limit the file size in Java