屏幕抓取如何使用java从网站中提取数据?
我熟悉java编程语言,我喜欢从网站中提取数据,并将其存储到我机器上运行的数据库中。这在java中是可能的吗。如果是,我应该使用哪种API。例如,网站上列出的学校数量如何提取数据并使用java将其存储到数据库中
你可以在下面搜索框中键入要查询的问题!
我熟悉java编程语言,我喜欢从网站中提取数据,并将其存储到我机器上运行的数据库中。这在java中是可能的吗。如果是,我应该使用哪种API。例如,网站上列出的学校数量如何提取数据并使用java将其存储到数据库中
# 1 楼答案
根据您真正想要做的事情,您可以使用许多不同的解决方案
如果你只是想获取网页的HTML代码,那么URL。getContent()可能是您的解决方案。以下是一个小教程:
http://www.javacoffeebreak.com/books/extracts/javanotesv3/c10/s4.html
编辑:不明白他在寻找解析HTML代码的方法。上面已经提出了一些工具。对不起
# 2 楼答案
你所指的通常被称为“屏幕抓取”。在Java中有多种方法可以做到这一点,但是,我更喜欢HtmlUnit。虽然它被设计为一种测试web功能的方法,但您可以使用它来访问远程网页,并将其解析出来
我建议使用一个好的错误处理html解析器,比如Tagsoup,从html中提取您想要的内容
# 3 楼答案
您可以从中使用VietSpider XML
http://sourceforge.net/projects/binhgiang/files/
下载VietSpider3_16_XML_Windows。zip或VietSpider3_16_XML_Linux。拉链
VietSpider Web数据提取器:软件从网站((数据刮刀))抓取数据,格式为XML标准(文本、CDATA),然后存储在关系数据库中。产品支持各种RDBMs,如Oracle、MySQL、SQL Server、H2、HSQL、Apache Derby、Postgres…VietSpider Crawler支持会话(登录、表单输入查询)、多下载、JavaScript处理、代理(以及自动扫描网站代理的多代理)
# 4 楼答案
您肯定需要一个好的解析器,比如NekoHTML
下面是一个使用NekoHTML的示例,尽管它使用Groovy(一种基于Java的脚本语言)而不是Java本身:
http://www.keplarllp.com/blog/2010/01/better-competitive-intelligence-through-scraping-with-groovy