有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

屏幕抓取如何使用java从网站中提取数据?

我熟悉java编程语言,我喜欢从网站中提取数据,并将其存储到我机器上运行的数据库中。这在java中是可能的吗。如果是,我应该使用哪种API。例如,网站上列出的学校数量如何提取数据并使用java将其存储到数据库中


共 (4) 个答案

  1. # 1 楼答案

    根据您真正想要做的事情,您可以使用许多不同的解决方案

    如果你只是想获取网页的HTML代码,那么URL。getContent()可能是您的解决方案。以下是一个小教程:

    http://www.javacoffeebreak.com/books/extracts/javanotesv3/c10/s4.html

    编辑:不明白他在寻找解析HTML代码的方法。上面已经提出了一些工具。对不起

  2. # 2 楼答案

    你所指的通常被称为“屏幕抓取”。在Java中有多种方法可以做到这一点,但是,我更喜欢HtmlUnit。虽然它被设计为一种测试web功能的方法,但您可以使用它来访问远程网页,并将其解析出来

    我建议使用一个好的错误处理html解析器,比如Tagsoup,从html中提取您想要的内容

  3. # 3 楼答案

    您可以从中使用VietSpider XML

    http://sourceforge.net/projects/binhgiang/files/

    下载VietSpider3_16_XML_Windows。zip或VietSpider3_16_XML_Linux。拉链

    VietSpider Web数据提取器:软件从网站((数据刮刀))抓取数据,格式为XML标准(文本、CDATA),然后存储在关系数据库中。产品支持各种RDBMs,如Oracle、MySQL、SQL Server、H2、HSQL、Apache Derby、Postgres…VietSpider Crawler支持会话(登录、表单输入查询)、多下载、JavaScript处理、代理(以及自动扫描网站代理的多代理)