make_links_absolute（）会导致断开的绝对URL

1条回答

网友

1楼 · 发布于 2024-07-04 06:03:04

在这种情况下，相关页面包含

<base href="http://govp.info/"/>

指示浏览器使用此选项解析任何相对链接。<base>元素是可选的，但如果它存在，则必须使用它而不是页面的实际URL

为了像浏览器那样操作，请提取base href并在make_links_absolute()中使用它

import requests
from pyquery import PyQuery as pq

page_url = 'http://govp.info/o-gorode/gorozhane'
resp = requests.get(page_url)
page = pq(resp.text)

base = page.find('base').attr['href']
if base is None:
    base = page_url    # the page's own URL is the fallback

page.make_links_absolute(base)

for a in page.find('a'):
     if 'href' in a.attrib and 'govp.info' in a.attrib['href']:
         print(a.attrib['href'])

印刷品

http://govp.info/assets/images/map.png
http://govp.info/podpiska.html
http://govp.info/
http://govp.info/#order
...
http://govp.info/o-gorode/gorozhane
http://govp.info/o-gorode/gorozhane?page=2
http://govp.info/o-gorode/gorozhane?page=3
http://govp.info/o-gorode/gorozhane?page=4
http://govp.info/o-gorode/gorozhane?page=5
http://govp.info/o-gorode/gorozhane?page=6
http://govp.info/o-gorode/gorozhane?page=2
http://govp.info/o-gorode/gorozhane?page=17
http://govp.info/bannerclick/264
...
http://doska.govp.info/cat-biznes-uslugi/
http://doska.govp.info/cat-transport/legkovye-avtomobili/
http://doska.govp.info/
http://govp.info/

这似乎是正确的

相关问题更多 >

编程相关推荐

热门问题

热门文章

make_links_absolute（）会导致断开的绝对URL

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >