在第一次运行Python之后循环访问set stops

import requests from bs4 import BeautifulSoup linkset = set() url = "http://someurl.com/venues" r = requests.get(url) soup = BeautifulSoup(r.content, "lxml") base_url = "http://someurl.com/uk/" links = soup.find_all("a", class_="supplier-link") # A function to get the links from the top level directory. def get_venue_link_list(links): for link in links: linkset.add(link.get("href")) return linkset #get_venue_link_list(links) # When I test by printing linkset, I get the list of unique URL's. # This works as expected. #print linkset # A function to go retrieve contact def go_retrieve_contact(link_value): for i in link_value: link = i venue_link = base_url + link venue_request = requests.get(venue_link) venue_soup = BeautifulSoup(venue_request.content, "lxml") info = venue_soup.find_all("section", {"class": "findout"}) header = venue_soup.find_all("div", {"id": "supplier-header-desktop"}) go_get_info(info) # Email, Phone and Website was nested in one div so it was a little easier to get. # Will need to use a different div for address and social media names. def go_get_info(info): for item in info: print "%s" % ((item.contents[3].find_all("span", {"class": "text"})[0].text)).strip() print "%s" % ((item.contents[3].find_all("span", {"class": "text"})[1].text)).strip() print "%s" % ((item.contents[3].find_all("span", {"class": "text"})[2].text)).strip() #Lets comment out this next nested loop until I fix the above. #for item in header: #print item.contents[1].text go_retrieve_contact(get_venue_link_list(links))

3条回答

网友

1楼 · 编辑于 2024-10-02 02:30:23

在get_venue_link_list()中，循环中有一个return语句。这会导致函数在第一次到达时退出，因此永远不会超过第一次迭代。删除此函数最后一行的缩进。在

网友

2楼 · 编辑于 2024-10-02 02:30:23

这是因为你没有给它一个改变来继续迭代。您return在循环内，因此它不会到达第二次迭代。您需要取消该行的缩进：

def get_venue_link_list(links):
    for link in links:
        linkset.add(link.get("href"))
    return linkset

网友

3楼 · 编辑于 2024-10-02 02:30:23

return导致函数完全退出。按照您编写它的方式，您已经告诉函数在第一次迭代之后立即返回-所以难怪它会停止。：）

这是一个缩进问题-您真正想要的是：

def get_venue_link_list(links):
    for link in links:
        linkset.add(link.get("href"))
    return linkset

首先，让循环结束。在

相关问题更多 >

编程相关推荐

热门问题

热门文章