Python中的Scraper提供“拒绝访问”

import bs4 import requests def extract_source(url): source=requests.get(url).text return source def extract_data(source): soup=bs4.BeautifulSoup(source) names=soup.findAll('title') for i in names: print i extract_data(extract_source('https://www.justdial.com/Panipat/Saree-Retailers/nct-10420585'))

3条回答

网友

1楼 · 编辑于 2024-09-29 07:34:47

如注释中所述，您需要指定允许的用户代理并将其作为headers传递：

def extract_source(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}
    source=requests.get(url, headers=headers).text
    return source

网友

2楼 · 编辑于 2024-09-29 07:34:47

def extract_source(url):
    headers = {"User-Agent":"Mozilla/5.0"}
    source=requests.get(url, headers=headers).text
    return source

输出：

^{pr2}$

{cdose没有响应站点请求

网友

3楼 · 编辑于 2024-09-29 07:34:47

试试这个：

import bs4
import requests

def extract_source(url):
     agent = {"User-Agent":"Mozilla/5.0"}
     source=requests.get(url, headers=agent).text
     return source

def extract_data(source):
     soup=bs4.BeautifulSoup(source, 'lxml')
     names=soup.findAll('title')
     for i in names:
     print i

extract_data(extract_source('https://www.justdial.com/Panipat/Saree-Retailers/nct-10420585'))

我添加了'lxml'以潜在地避免解析错误。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python中的Scraper提供“拒绝访问”

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >