擅长:python、mysql、java
<p>html5lib是一个非常可靠的html解析器。由于xhtml是<a href="http://validator.w3.org/check?uri=http%3A%2F%2Fwww.csupomona.edu%2F%7Eehelp%2Fdrivemap%2Fmac.shtml&charset=%28detect+automatically%29&doctype=Inline&group=0" rel="nofollow" title="missing end tags">somewhat broken</a>,xml解析器将拒绝它。幸运的是,<a href="https://code.google.com/p/html5lib/" rel="nofollow">html5lib</a>有{a3},因此您仍然可以使用lxml和xpath的全部功能来提取数据。在</p>