处理具有不同分页结构的链接时遇到问题

import requests from bs4 import BeautifulSoup from urllib.parse import urljoin urls = ( 'https://www.mobilehome.net/mobile-home-park-directory/maine/all', 'https://www.mobilehome.net/mobile-home-park-directory/rhode-island/all', ) def get_names(link): r = requests.get(link) soup = BeautifulSoup(r.text,"lxml") items = soup.select_one(".pagination a.next_page") if items: npagelink = items.find_previous_sibling().get("href").split("/")[-1] return [get_paginated_info(link + "/page/{}".format(page)) for page in range(1,int(npagelink)+1)] else: return [get_info(soup)] def get_info(soup): print("================links without pagination==============") for items in soup.select("td[class='table-row-price']"): item = items.select_one("h2 a").text print(item) def get_paginated_info(url): r = requests.get(url) sauce = BeautifulSoup(r.text,"lxml") print("================links with pagination==============") for content in sauce.select("td[class='table-row-price']"): title = content.select_one("h2 a").text print(title) if __name__ == '__main__': for url in urls: get_names(url)

1条回答

网友

1楼 · 发布于 2024-05-20 08:20:45

我稍微改变了逻辑。所以现在在有分页和没有分页的情况下，脚本都将调用get_names。但在第二种情况下，在for循环中只执行一次迭代

import requests 
from bs4 import BeautifulSoup
from urllib.parse import urljoin

urls = (
    'https://www.mobilehome.net/mobile-home-park-directory/maine/all',
    'https://www.mobilehome.net/mobile-home-park-directory/rhode-island/all',
)

def get_names(link):
    r = requests.get(link)
    soup = BeautifulSoup(r.text,"lxml")
    items = soup.select_one(".pagination a.next_page")
    try:
        npagelink = items.find_previous_sibling().get("href").split("/")[-1]
    except AttributeError:
        npagelink = 1
    return [get_info(link + "/page/{}".format(page)) for page in range(1, int(npagelink) + 1)]


def get_info(url):
    r = requests.get(url)
    sauce = BeautifulSoup(r.text,"lxml")
    for content in sauce.select("td[class='table-row-price']"):
        title = content.select_one("h2 a").text
        print(title)

if __name__ == '__main__':
    for url in urls:
        get_names(url)

请仔细检查输出，确保一切正常

相关问题更多 >

编程相关推荐

热门问题

热门文章