如何使用python获取HTML元素中的所有链接？

from bs4 import BeautifulSoup from urllib2 import urlopen BASE_URL = "http://classes.uoregon.edu/" def get_category_links(section_url): html = urlopen(section_url).read() soup = BeautifulSoup(html, "lxml") pldefault = soup.find("td", "pldefault") ul_links = pldefault.find("ul") category_links = [BASE_URL + ul.a["href"] for i in ul_links.findAll("ul")] return category_links

1条回答

网友

1楼 · 发布于 2024-09-23 22:25:14

我会保持它的简单，并找到所有包含2015的链接在文本中和term在href：

for link in soup.find_all("a",
                          href=lambda href: href and "term" in href,
                          text=lambda text: text and "2015" in text):
    print link["href"]

印刷品：

/pls/prod/hwskdhnt.p_search?term=201402
/pls/prod/hwskdhnt.p_search?term=201403
/pls/prod/hwskdhnt.p_search?term=201404
/pls/prod/hwskdhnt.p_search?term=201406
/pls/prod/hwskdhnt.p_search?term=201407

如果需要完整的url，请使用^{}将链接与基本url连接起来：

from urlparse import urljoin

...
for link in soup.find_all("a",
                          href=lambda href: href and "term" in href,
                          text=lambda text: text and "2015" in text):
    print urljoin(url, link["href"])

这将打印：

http://classes.uoregon.edu/pls/prod/hwskdhnt.p_search?term=201402
http://classes.uoregon.edu/pls/prod/hwskdhnt.p_search?term=201403
http://classes.uoregon.edu/pls/prod/hwskdhnt.p_search?term=201404
http://classes.uoregon.edu/pls/prod/hwskdhnt.p_search?term=201406
http://classes.uoregon.edu/pls/prod/hwskdhnt.p_search?term=201407

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用python获取HTML元素中的所有链接？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >