我正在尝试从一个体育统计表中提取数据,该表使用beauthoulsoup和requests库以HTML形式呈现。我在python3.5上运行这两个版本。我似乎是通过请求成功地获得了HTML,因为当我显示r.content
时,我试图获取的网站的完整HTML就会显示出来。但是,当我把这个传递给BeautifulSoup时,BeautifulSoup会删除大量的HTML,这些HTML本身就是统计表。在
如果您看一看有问题的website,那么从“得分进展”开始的HTML将被删除。在
我认为这个问题与包含在方括号('['和']')之间的HTML片段有关,但是我还没有开发出一个解决办法。我尝试过html、lxml和html5lib解析器来实现BeautifulSoup,但没有成功。我也尝试过提供“用户代理”头,但也没用。在
我的代码如下。为了简洁起见,我没有包含输出。在
import requests
from bs4 import BeautifulSoup
r = requests.get('http://afltables.com/afl/stats/games/2015/031420150402.html')
soup = BeautifulSoup(r.content, 'html5lib')
print(soup)
我使用了一个不同的解析器,它似乎可以工作;只是默认的html解析器。在
如果你试过类似的东西汤.餐桌如果没有首先使用“find_all”子句,它似乎会删除其他表,因为它只返回第一个表。在
相关问题 更多 >
编程相关推荐