屏幕抓取如何使用java从网站中提取数据？

1 月，1 周 Questions & Answers 41655

我熟悉java编程语言，我喜欢从网站中提取数据，并将其存储到我机器上运行的数据库中。这在java中是可能的吗。如果是，我应该使用哪种API。例如，网站上列出的学校数量如何提取数据并使用java将其存储到数据库中

共 (4) 个答案

# 1 楼答案

根据您真正想要做的事情，您可以使用许多不同的解决方案

如果你只是想获取网页的HTML代码，那么URL。getContent（）可能是您的解决方案。以下是一个小教程：

http://www.javacoffeebreak.com/books/extracts/javanotesv3/c10/s4.html

编辑：不明白他在寻找解析HTML代码的方法。上面已经提出了一些工具。对不起
# 2 楼答案

你所指的通常被称为“屏幕抓取”。在Java中有多种方法可以做到这一点，但是，我更喜欢HtmlUnit。虽然它被设计为一种测试web功能的方法，但您可以使用它来访问远程网页，并将其解析出来

我建议使用一个好的错误处理html解析器，比如Tagsoup，从html中提取您想要的内容
# 3 楼答案

您可以从中使用VietSpider XML

http://sourceforge.net/projects/binhgiang/files/

下载VietSpider3_16_XML_Windows。zip或VietSpider3_16_XML_Linux。拉链

VietSpider Web数据提取器：软件从网站（（数据刮刀））抓取数据，格式为XML标准（文本、CDATA），然后存储在关系数据库中。产品支持各种RDBMs，如Oracle、MySQL、SQL Server、H2、HSQL、Apache Derby、Postgres…VietSpider Crawler支持会话（登录、表单输入查询）、多下载、JavaScript处理、代理（以及自动扫描网站代理的多代理）
# 4 楼答案

您肯定需要一个好的解析器，比如NekoHTML

下面是一个使用NekoHTML的示例，尽管它使用Groovy（一种基于Java的脚本语言）而不是Java本身：

http://www.keplarllp.com/blog/2010/01/better-competitive-intelligence-through-scraping-with-groovy

Python中文网

有 Java 编程相关的问题?

屏幕抓取如何使用java从网站中提取数据？

共 (4) 个答案

# 1 楼答案

# 2 楼答案

# 3 楼答案

# 4 楼答案