擅长:python、mysql、java
<p>我认为html包含一些使html解析器无法正确解析html的缺陷,您可以通过打印<code>page.text</code>然后打印<code>soup</code>来验证,您将发现该文档的某些部分已被解析器删除</p>
<p>但是,lxml解析器成功地解析了它,但存在缺陷,因为<code>lxml</code>在格式错误的html文档上更好:</p>
<pre><code>rom bs4 import BeautifulSoup
import requests
import pandas as pd
import csv
import time
url = 'http://www2.congreso.gob.pe/Sicr/TraDocEstProc/CLProLey2006.nsf/ec97fee42a2412d5052578bb001539ee/89045fe8ae896e2e0525751c005544cd?OpenDocument'
page = requests.get(url)
soup = BeautifulSoup(page.text, 'lxml')
table = soup.find('table', {'bordercolor' : '#6583A0'})
print(table)
</code></pre>
<p>应该正确捕捉表标记</p>