擅长:python、mysql、java
<p>看起来像天使公司将根据发送的<code>User-Agent</code>使用<code>HTTP 404</code>响应,看起来它将阻止默认的<code>requests</code>代理(可能取决于版本)。这可能会阻碍机器人活动。在</p>
<p>下面是我的<code>ipython</code>会话的一些输出。我正在使用<code>requests/2.17.3</code>。在</p>
<h3>使用默认的Python请求用户代理</h3>
<pre><code>In [37]: rsp = requests.get('https://angel.co/bloom')
In [38]: rsp.status_code
Out[38]: 404
</code></pre>
<h3>使用与Mozilla兼容的用户代理</h3>
^{pr2}$
<p><code>rsp.content</code>包含您希望看到的内容天使公司/布鲁姆. 在</p>
<h3>使用一些随机用户代理</h3>
<pre><code>In [41]: rsp = requests.get('https://angel.co/bloom', headers={'User-Agent': 'birryree angel scraper'})
In [42]: rsp.status_code
Out[42]: 200
</code></pre>
<hr/>
<p>因此,您应该设置<code>User-Agent</code>,以绕过angle为各种默认代理使用的任何类型的过滤/阻塞。在</p>
<p>如果你要做大量的清理工作,我建议你做一个好公民,并设置一个代理字符串,让他们在你的刮蹭引起问题时联系你,比如:</p>
<pre><code>requests.get('https://angel.co/bloom',
headers={'User-Agent': 'Mozilla/5.0 (compatible; http://yoursite.com)'}
</code></pre>