我应该如何从具有“最小化”部分的页面中刮取数据？

webpage = "www.webpage.com" webOpen = urllib2.urlopen(webpage).read() webSoup = BeautifulSoup(webOpen, "lxml") tabData = webSoup.find("div", {"class": "cr_cashflow_table"}) tabData = tabData.find_all('tr')

1条回答

网友

1楼 · 发布于 2024-09-28 05:26:51

我尝试了以下模仿你的代码，但我只是更改了url：

webpage = "www.cnn.com" 
webOpen = urllib2.urlopen(webpage).read()

我得到以下错误：

Traceback (most recent call last):


File "<stdin>", line 1, in <module>
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 154, in urlopen
    return opener.open(url, data, timeout)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 423, in open
    protocol = req.get_type()
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 285, in get_type
    raise ValueError, "unknown url type: %s" % self.__original
ValueError: unknown url type: www.cnn.com

所以看来”www.cnn.com不是一个有效的url（或者可能是因为它是一个伪new:D），为了修复它，我预先添加了http，比如：“http://www.cnn.com”，并且能够获得html文档。如果urllib2返回的html文档在url中没有http，您是否先尝试过？你知道吗

我希望这有帮助。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

我应该如何从具有“最小化”部分的页面中刮取数据？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >