无法使用beauthulsoup从span元素收集属性

import urllib.request try: from BeautifulSoup import BeautifulSoup except ImportError: from bs4 import BeautifulSoup url = "https://wwwn.cdc.gov/nchs/nhanes/search/datapage.aspx?Component=Examination" with urllib.request.urlopen(url) as page: html_source = page.read() soup = BeautifulSoup(html_source, 'html5lib') link = soup.findAll("span", {"class":"print-only"})

3条回答

网友

1楼 · 编辑于 2024-09-29 21:41:24

下面是一个使用BeautifulSoup获取所需内容的解决方案，首先让我们获取表：

table = soup.find("table",{'id':'GridView1'})

现在我们在它的主体中找到了tr标记：

^{pr2}$

注意你要找的标签不在那里。我展示了列表的第一项，以便您更好地分析您需要的url在哪里，正如我们所看到的，它是我们想要的第一个a标记，因此例如：

>>> table.find('tbody').findAll('tr')[0].find('a')
<a href="/Nchs/Nhanes/2009-2010/ARX_F.htm">ARX_F Doc</a>

现在剩下要做的就是编写一个列表理解，将列表中每个tr标记中第一个a标记的所有href属性连接起来：

>>> trList = table.find('tbody').findAll('tr')
>>> lst = [tr.find('a')['href'] for tr in trList]

如果我们打印lst的第一个元素，我们会看到这是我们想要的输出：

>>> lst[:3]
['/Nchs/Nhanes/2009-2010/ARX_F.htm', '/Nchs/Nhanes/1999-2000/AUX1.htm', '/Nchs/Nhanes/2001-2002/AUX_B.htm']

网友

2楼 · 编辑于 2024-09-29 21:41:24

由于span元素是隐藏的，您将无法使用BeautifulSoup检索它。也许，您可以使用其他属性来获取所需的链接。如果您知道要为其提取链接的.htm文件的名称，则只需使用内部文本找到“a”元素（它还绑定了所需的链接和隐藏的span元素），然后从元素中提取“href”，如下所示：

import requests
from bs4 import BeautifulSoup
import html5lib
import string

ascii = set(string.printable)
def remove_non_ascii(s):
    return filter(lambda x: x in ascii, s)


url = 'https://wwwn.cdc.gov/nchs/nhanes/search/datapage.aspx?Component=Examination'
home_url = 'https://wwwn.cdc.gov'

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
page = requests.get(url, headers = headers, allow_redirects = True)
soup = BeautifulSoup(remove_non_ascii(page.text), "html5lib")

link = soup.find_all('a', text='ARX_F Doc')[0]
complete_url = home_url + link.get('href')
print complete_url

网友

3楼 · 编辑于 2024-09-29 21:41:24

试试这个：

import urllib.request                                                                                                                                              
from bs4 import BeautifulSoup                                                                                                                             
url = "https://wwwn.cdc.gov/nchs/nhanes/search/datapage.aspx?Component=Examination"
with urllib.request.urlopen(url) as page:
     html_source = page.read()
soup = BeautifulSoup(html_source, 'html5lib')

link = soup.find_all("span", class_="print-only")

相关问题更多 >

编程相关推荐

热门问题

热门文章