从页面和下一页获取URL

from BeautifulSoup import BeautifulSoup import urllib2 import re def getLinks(url): html_page = urllib2.urlopen(url) soup = BeautifulSoup(html_page) links = [] for link in soup.findAll('a', attrs={'href': re.compile("^http://")}): links.append(link.get('href')) return links print( getLinks("https://www.horizont.net/suche/?OK=suchen&OK=suchen&i_sortfl=pubdate&i_sortd=desc&i_q=der") )

1条回答

网友

1楼 · 发布于 2024-10-05 14:28:21

您可以使用链接的element class属性来提取href:

for link in soup.findAll ('a', attrs = {'href': re.compile ("^ http: //")}, class _ = "ArticleTeaserSearchResultItem_link"):

如果您要浏览所有页面并收集所有文章的url，我可以建议您更改链接本身的页面值，直到链接有效：

i = 1
urls = []
while True:

    url = f"https://www.horizont.net/suche/?OK=1&i_q=der&i_sortfl=pubdate&i_sortd=desc&currPage={i}"
    try:
        def getLinks(url):
            html_page = urllib2.urlopen(url)
            soup = BeautifulSoup(html_page)
            links = []

            for link in soup.findAll('a', attrs={'href': re.compile("^http://")}, class_="ArticleTeaserSearchResultItem_link"):
                links.append(link.get('href'))

            return links

    urls.append(getLinks(url))

    except:
        break

    i += 1

目前我还没有机会调试我的代码，但我希望我能帮助你。祝你好运

相关问题更多 >

编程相关推荐

热门问题

热门文章