用于HTML分析的Java库
(我见过类似的问题,但我认为没有一个能满足我的具体需求,因此……)
我想知道是否有用于分析现实世界(阅读:不完整、格式错误)HTML的Java库。我所说的分析是指:
- 找出HTML块中最突出的颜色
- 将该颜色更改为其他颜色(因此,还必须支持对HTML的修改)
- 删除不需要的标签
- 修复HTML以生成格式良好的HTML片段
最后两部分是由杰里科和杰蒂德等图书馆完成的上面的插件会很棒
提前谢谢
你可以在下面搜索框中键入要查询的问题!
(我见过类似的问题,但我认为没有一个能满足我的具体需求,因此……)
我想知道是否有用于分析现实世界(阅读:不完整、格式错误)HTML的Java库。我所说的分析是指:
最后两部分是由杰里科和杰蒂德等图书馆完成的上面的插件会很棒
提前谢谢
# 1 楼答案
首先,我会把它整理成有效的XML,然后使用XSLT做一个有条件的深度复制,在那里我会做最显著的颜色/修剪/任何你需要的处理
# 2 楼答案
也许你会在this list中找到一些东西(试试TagSoup、NekoHTML、VietSpider HTMLParser)