有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

用于HTML分析的Java库

(我见过类似的问题,但我认为没有一个能满足我的具体需求,因此……)

我想知道是否有用于分析现实世界(阅读:不完整、格式错误)HTML的Java库。我所说的分析是指:

  • 找出HTML块中最突出的颜色
  • 将该颜色更改为其他颜色(因此,还必须支持对HTML的修改)
  • 删除不需要的标签
  • 修复HTML以生成格式良好的HTML片段

最后两部分是由杰里科和杰蒂德等图书馆完成的上面的插件会很棒

提前谢谢


共 (2) 个答案

  1. # 1 楼答案

    首先,我会把它整理成有效的XML,然后使用XSLT做一个有条件的深度复制,在那里我会做最显著的颜色/修剪/任何你需要的处理

  2. # 2 楼答案

    也许你会在this list中找到一些东西(试试TagSoup、NekoHTML、VietSpider HTMLParser)