Java URL无法获取整个源代码

8 月，1 周 Questions & Answers 28

我试图创建一个简单的项目，用户输入一个URL，我获取引用的相关信息（作者、标题等）。问题是Java URL库似乎无法获取整个页面源代码。例如，我将使用链接https://www.cia.gov/library/publications/the-world-factbook/geos/jo.html作为引用。以下是我使用的代码：

import java.net.*;
import java.io.*;
import java.util.ArrayList;
public class URLTester 
{
  private static URL url;
  public URLTester(URL u)
  {
      url = u;
  }

  public static ArrayList <String> getContents() throws Exception
  {
         BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
         String inputLine;
         ArrayList <String> arr = new ArrayList<String>();
         while ((inputLine = in.readLine()) != null)
         {
              arr.add(inputLine);
         }

         in.close();
         return arr;
  }

 public static void main (String args[]) throws Exception
 {
   url = new URL("https://www.cia.gov/library/publications/the-world-factbook/geos/jo.html");
   ArrayList<String> contents = getContents();
   for(int i = 0; i < contents.size(); i++)
   {
     System.out.println((contents.get(i)));

   }


 }
}

这将获取目标页面源的缩短版本。当我在网站上点击“查看页面来源”时，出现了一个扩展得多的版本，包括文章的日期和作者等信息。我无法将源代码粘贴到这里，因为它将超过字符限制。如何获取整个页面的源代码，而不是缩短的版本

Python中文网

有 Java 编程相关的问题?

Java URL无法获取整个源代码

共 (0) 个答案