擅长:python、mysql、java
<p>Jsoup是一个HTML解析器,可以帮助您抓取和解析HTML页面。如果您已经知道站点导航的模式,那么Jsoup是很好的。但是如果你想抓取网站的所有内容,你最好利用一些爬虫框架,比如<a href="http://scrapy.org/" rel="nofollow">Scrapy</a>或{a2}。在</p>
<p>首先,你需要确定你需要从页面中删除什么。主题、作者、内容。使用css选择器提取所需内容,例如主题:</p>
<pre><code>@Grab('org.jsoup:jsoup:1.9.2')
org.jsoup.nodes.Document doc = org.jsoup.Jsoup.connect("http://www.dcfever.com/news/readnews.php?id=16727").get();
String subject = doc.select("body > div.site_wrapper > div.canvas > div:nth-child(5) > div > div.col-md-left.col-lg-left.read_article > h1").text();
</code></pre>
<p>您可以在groovy控制台中运行以上代码,得到的结果如下:</p>
^{pr2}$