有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

javascript使用Jsoup提取“隐藏”HTML

我试图获取源文档中没有出现但可以公开的HTML数据,例如,通过Google Chrome中的“inspect元素”

示例页面:http://assignment.uspto.gov/#/search?q=9000000&sort=patAssignorEarliestExDate%20desc%2C%20id%20desc&synonyms=false

该行下方显示了许多包含美国专利号9000000转让数据的div元素

<script async="async" type="text/javascript" src="https://components.uspto.gov/js/ais/2-2-assignment-search.js"></script>

有没有办法用Jsoup提取这个隐藏的html


共 (2) 个答案

  1. # 1 楼答案

    数据似乎是用AJAX加载的。JSoup不处理Javascript

    您需要的是一个“无头浏览器”API,它可以处理Javascript而不实际呈现任何内容

    HtmlUnit似乎是最有名的工具,尽管我自己从未使用过。如前所述,Selenium Webdriver也是一个选项

    我相信你将不得不加载URL,等待所有的AJAX处理,最终你将得到几乎与你在Java Chrome中得到的解析树相同的解析树,以实现你的愿望

  2. # 2 楼答案