我是BeautifulSoup的新手,我正在尝试从一个页面中获取数据,这个页面有一个可以被浏览页面的人最小化的部分。当我查看页面的HTML代码时,我发现下面是这样的内容。你知道吗
为了提取表数据,我使用以下代码,但是我无法从表中提取数据。你知道吗
webpage = "www.webpage.com"
webOpen = urllib2.urlopen(webpage).read()
webSoup = BeautifulSoup(webOpen, "lxml")
tabData = webSoup.find("div", {"class": "cr_cashflow_table"})
tabData = tabData.find_all('tr')
我还尝试了以下操作,但似乎仍然无法提取表中的数据。你知道吗
webpage = "www.webpage.com"
webOpen = urllib2.urlopen(webpage).read()
webSoup = BeautifulSoup(webOpen, "lxml")
tabData = webSoup.find("div", {"class": "cr_cashflow_table", "style": "display: block;"})
tabData = tabData.find_all('tr')
如果我做错了什么,请告诉我。你知道吗
我尝试了以下模仿你的代码,但我只是更改了url:
我得到以下错误:
所以看来”www.cnn.com不是一个有效的url(或者可能是因为它是一个伪new:D),为了修复它,我预先添加了http,比如:“http://www.cnn.com”,并且能够获得html文档。如果urllib2返回的html文档在url中没有http,您是否先尝试过?你知道吗
我希望这有帮助。你知道吗
相关问题 更多 >
编程相关推荐