链接=http://fortune.com/worlds-most-admired-companies/2016/
所以,我想要一个div中所有的'href'都有一个已知的'class name' 我无法逃脱:
import bs4 as bs
import urllib.request
raw = urllib.request.urlopen('http://fortune.com/worlds-most-admired-companies/2016/')
soup = bs.BeautifulSoup(raw, 'lxml')
listdiv = soup.find('div', clsss_="company-franchise-result-content current")
for url in listdiv.find_all('a'):
print(url.get('href'))
我以前使用过:
for a in soup.find_all('a'):
print(a.get('href'))
从苹果到通用电气,它可以正常工作,但只返回10件商品。即使当我给它的链接,我得到当我点击“查看完整列表”按钮。 我不知道JSON是如何工作的,但看起来这正朝着这个方向发展。你知道吗
完整的数据实际上在HTML中。它就在} 将其加载到Python数据结构中,并获取所需的数据:
script
标记中的JavaScript对象内部。您可以找到这个script
标记,获取它的文本,提取JSON字符串,用^{相关问题 更多 >
编程相关推荐