用Python和beauthoulsoup解析多个url

import requests from bs4 import BeautifulSoup url = "http://www.myschoolwebsite.com/1" #url2 = "http://www.myschoolwebsite.com/2" r = requests.get(url) soup = BeautifulSoup(r.content,'lxml') g_data = soup.find_all('ul', {"class": "searchResults"}) for item in g_data: for li in item.findAll('li'): for resultnameh2 in li.findAll('h2'): for resultname in resultnameh2.findAll('a'): print(resultname).text for resultAddress in li.findAll('p', {"class": "resultAddress"}): print(resultAddress).text.replace('Get directions','').strip() for resultContact in li.findAll('ul', {"class": "resultContact"}): for resultContact in li.findAll('a', {"class": "resultMainNumber"}): print(resultContact).text

2条回答

网友

1楼 · 编辑于 2024-10-03 06:30:03

我会创建一个包含所有url的数组并循环使用它，或者如果有一个清晰的模式，那么编写一个regex来搜索该模式。在

网友

2楼 · 编辑于 2024-10-03 06:30:03

首先，可以假设目录的最大页数（如果知道url的模式）。我假设url是http://base_url/page下一步你可以写下：

base_url = 'http://www.myschoolwebsite.com'
total_pages = 100

def parse_content(r):
    soup = BeautifulSoup(r.content,'lxml')
    g_data = soup.find_all('ul', {"class": "searchResults"})

    for item in g_data:
        for li in item.findAll('li'):
            for resultnameh2 in li.findAll('h2'):
                for resultname in resultnameh2.findAll('a'):
                    print(resultname).text
        for resultAddress in li.findAll('p', {"class": "resultAddress"}):
            print(resultAddress).text.replace('Get directions','').strip()   
        for resultContact in li.findAll('ul', {"class": "resultContact"}):
            for resultContact in li.findAll('a', {"class": "resultMainNumber"}):
                print(resultContact).text

for page in range(1, total_pages):
    response = requests.get(base_url + '/' + str(page))
    if response.status_code != 200:
        break

    parse_content(response)

相关问题更多 >

编程相关推荐

热门问题

热门文章