使用用户代理标头时拒绝Webscraping CrunchBase访问

import requests from bs4 import BeautifulSoup as BS url = 'https://www.crunchbase.com/organization/incube-labs' headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'} response = requests.get(url, headers=headers) print(response.content)

1条回答

网友

1楼 · 发布于 2024-06-02 21:49:12

总之，你的代码看起来很棒！看起来，您试图废弃的网站需要比您现有的更复杂的标题。以下代码应该可以解决您的问题：

import requests
from bs4 import BeautifulSoup as BS


url = 'https://www.crunchbase.com/organization/incube-labs'
headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:66.0) Gecko/20100101 Firefox/66.0", "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "Accept-Language": "en-US,en;q=0.5", "Accept-Encoding": "gzip, deflate", "DNT": "1", "Connection": "close", "Upgrade-Insecure-Requests": "1"}

response = requests.get(url, headers=headers)
print(response.content)

希望这有帮助

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用用户代理标头时拒绝Webscraping CrunchBase访问

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >