使用beautifulsoup（未知url类型）通过python迭代web抓取的url列表

for link in linklist[0]: page2=urllib.request.Request(link,headers={'User-Agent': 'Mozilla/5.0'}) myhtml2 = urllib.request.urlopen(page2).read() soupfl = BeautifulSoup(myhtml2, 'html.parser')

1条回答

网友

1楼 · 发布于 2024-09-30 10:26:53

要获取所有链接，可以使用以下示例：

import urllib.request
from bs4 import BeautifulSoup


URL = "https://www.lamudi.com.mx/nuevo-leon/departamento/for-rent/"

HEADERS = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36"
}

r = urllib.request.Request(URL, headers=HEADERS)
soup = BeautifulSoup(urllib.request.urlopen(r).read(), "html.parser")

tags = soup.find_all("a", {"class": "js-listing-link"})

links = []
[links.append(link["href"]) for link in tags if link["href"] not in links]

for link in links:
    print("Getting:", link)
    r2 = urllib.request.Request(link, headers=HEADERS)
    soup2 = BeautifulSoup(urllib.request.urlopen(r2).read(), "html.parser")

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用beautifulsoup（未知url类型）通过python迭代web抓取的url列表

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >