无法从一些相同的链接中解析外观怪异的网站地址

import re import requests from bs4 import BeautifulSoup links = [ 'https://colegios.es/2012/santisimo-rosario-mosen-rubi-avila/', 'https://colegios.es/2012/cra-el-valle-villarejo-del-valle/', 'https://colegios.es/2012/ceip-las-canadas-trescasas/', 'https://colegios.es/2012/cra-el-barranco-san-esteban-del-valle/' ] def get_website(link): res = requests.get(link,headers={'User-Agent':'Mozilla/5.0'}) soup = BeautifulSoup(res.text,"html5lib") text = soup.select_one('.post-content > p').get_text(strip=True, separator='\n') website = re.findall(r'\s+(.*)\n\[', text)[0] print(website) if __name__ == '__main__': for link in links: get_website(link)

1条回答

网友

1楼 · 发布于 2024-10-06 12:15:18

我相信很快就会打破这一局面

import re
import requests
from bs4 import BeautifulSoup

links = [
    'https://colegios.es/2012/santisimo-rosario-mosen-rubi-avila/',
    'https://colegios.es/2012/cra-el-valle-villarejo-del-valle/',
    'https://colegios.es/2012/ceip-las-canadas-trescasas/',
    'https://colegios.es/2012/cra-el-barranco-san-esteban-del-valle/'
]

def get_website(link):
    res = s.get(link,headers={'User-Agent':'Mozilla/5.0'})
    soup = BeautifulSoup(res.text,"html5lib")
    y = str(soup.select_one('.post-content p')).split('<br/>')[-2]
    if 'Dirección' not in y:
        y = re.sub(r'\s{2,}', ' ', y).strip()
        website = y.split(' ')[-1]
        print(website)

if __name__ == '__main__':
    with requests.Session() as s:
        for link in links:
            get_website(link)

相关问题更多 >

编程相关推荐

热门问题

热门文章