擅长:python、mysql、java
<p>一个好的解决方案是上传到Google文档并从中导出html版本。(必须有一个用于此的api?)</p>
<p>它做了太多的“清理”;<a href="http://www.crummy.com/software/BeautifulSoup/" rel="noreferrer">Beautiful Soup</a>在路上可以用来做任何进一步的修改,视情况而定。它是这个星球上最强大和最优雅的html解析库。</p>
<p>这是记者公司的一个众所周知的标准。</p>