擅长:python、mysql、java
<h2>正则表达式不适合解析HTML</h2>
<p>以上是我想和你交流的主要想法。关于<em>为什么</em>,请参阅以下问题:<a href="https://stackoverflow.com/q/1732348/548696">RegEx match open tags except XHTML self-contained tags</a>。在</p>
<p>简言之,HTML可以作为文本更改(例如,可以添加新属性、更改属性顺序或引入其他一些更改),但这将导致与web浏览器解释的完全相同的HTML,同时完全破坏脚本。在</p>
<p>应该使用专门的HTML解析器或web scraper来解析HTML。当差异变得显著时,他们就知道了。在</p>
<h2>刮擦用什么?在</h2>
<p>有多种解决方案,但最值得注意的是:<a href="http://scrapy.org/" rel="nofollow noreferrer">ScraPy</a>。试试看,你会开始喜欢它的。在</p>