有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java从google scholar下载多个pdf文件

我想从google scholar下载所有付费/未付费论文,这些论文在任何特定论文中都会被引用,我只需提取相应引用标签的引用,并因此提取引用。我想不出的是,我该如何把所有的参考资料一个接一个地转发给学者,然后全部下载。任何帮助都将不胜感激。我只需要论文的摘要,因此plx建议我是否有办法直接获取摘要,或者我将下载整个论文


共 (1) 个答案

  1. # 1 楼答案

    1. 你应该找到PDF

      您可以使用okhttp向url发出请求(使用GET):

      OkHttpClient client = new OkHttpClient();
      
      Request request = new Request.Builder()
                       .url(" https://scholar.google.com.br/scholar?q=the_paper_i_want")
                       .build();
      
      Response response = client.newCall(request).execute();
      String html = response.body().string();
      

      这将为您提供一个html页面

    2. 使用JSoup解析html页面(例如)

       Document doc = Jsoup.parse(html);
       Elements links = doc.select("a[href]");
      

      您可以在属性href以“.pdf”结尾的位置查找标记

    3. 下载PDF

      现在,您可以使用代码like this

    PS:抱歉没有指向JSoup的链接,我的声誉不够高