我应该如何从具有“最小化”部分的页面中刮取数据?

2024-09-28 05:26:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我是BeautifulSoup的新手,我正在尝试从一个页面中获取数据,这个页面有一个可以被浏览页面的人最小化的部分。当我查看页面的HTML代码时,我发现下面是这样的内容。你知道吗

enter image description here

为了提取表数据,我使用以下代码,但是我无法从表中提取数据。你知道吗

webpage = "www.webpage.com"
webOpen = urllib2.urlopen(webpage).read()
webSoup = BeautifulSoup(webOpen, "lxml")
tabData = webSoup.find("div", {"class": "cr_cashflow_table"})
tabData = tabData.find_all('tr')

我还尝试了以下操作,但似乎仍然无法提取表中的数据。你知道吗

webpage = "www.webpage.com"
webOpen = urllib2.urlopen(webpage).read()
webSoup = BeautifulSoup(webOpen, "lxml")
tabData = webSoup.find("div", {"class": "cr_cashflow_table", "style": "display: block;"})
tabData = tabData.find_all('tr')

如果我做错了什么,请告诉我。你知道吗


Tags: 数据代码comreadwww页面findurllib2
1条回答
网友
1楼 · 发布于 2024-09-28 05:26:51

我尝试了以下模仿你的代码,但我只是更改了url:

webpage = "www.cnn.com" 
webOpen = urllib2.urlopen(webpage).read()

我得到以下错误:

Traceback (most recent call last):


File "<stdin>", line 1, in <module>
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 154, in urlopen
    return opener.open(url, data, timeout)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 423, in open
    protocol = req.get_type()
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 285, in get_type
    raise ValueError, "unknown url type: %s" % self.__original
ValueError: unknown url type: www.cnn.com

所以看来”www.cnn.com不是一个有效的url(或者可能是因为它是一个伪new:D),为了修复它,我预先添加了http,比如:“http://www.cnn.com”,并且能够获得html文档。如果urllib2返回的html文档在url中没有http,您是否先尝试过?你知道吗

我希望这有帮助。你知道吗

相关问题 更多 >

    热门问题