用于抓取特定链接的CSS选择器

from bs4 import BeautifulSoup import requests url = "http://kiascenehai.pk/" r = requests.get(url) data = r.text soup = BeautifulSoup(data) for link in soup.select("html body div.body-outer-wrapper div.body-wrapper.boxed-mode div.main- outer-wrapper.mt30 div.main-wrapper.container div.row.row-wrapper div.page-wrapper.twelve.columns.b0 div.row div.page-wrapper.twelve.columns div.row div.eight.columns.b0 div.content.clearfix section#main-content div.row div.six.columns div.small-post-wrapper div.small-post-content h2.small-post-title a"): print link.get('href')

2条回答

网友

1楼 · 编辑于 2024-07-04 14:05:50

首先，该页面需要（在cookie中）进行城市选择。使用Session object来处理此问题：

s = requests.Session()
s.post('http://kiascenehai.pk/select_city/submit_city', data={'city': 'Lahore'})
response = s.get('http://kiascenehai.pk/')

现在，响应获取实际页面内容，而不是重定向到城市选择页面。在

下一步，保持CSS选择器不超过需要的大小。在这个页面中，由于它使用网格布局，所以我们首先需要放大正确的行：

^{pr2}$

网友

2楼 · 编辑于 2024-07-04 14:05:50

这是联合创始人家景海.pk；请不要抓取网站，大量的精力投入到收集数据上，我们通过API提供访问权限，您可以使用联系表单请求访问，ty

相关问题更多 >

编程相关推荐

热门问题

热门文章