擅长:python、mysql、java
<p>很有可能是这个网站在阻止人们浏览他们的网站。你可以在一个基本的层面上欺骗他们,包括头信息和其他东西。更多信息请参阅此处。在</p>
<p>引自:<a href="https://docs.python.org/3/howto/urllib2.html#headers" rel="noreferrer">https://docs.python.org/3/howto/urllib2.html#headers</a></p>
<pre><code>import urllib.parse
import urllib.request
url = 'http://www.someserver.com/cgi-bin/register.cgi'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)'
values = {'name' : 'Michael Foord',
'location' : 'Northampton',
'language' : 'Python' }
headers = { 'User-Agent' : user_agent }
data = urllib.parse.urlencode(values)
data = data.encode('ascii')
req = urllib.request.Request(url, data, headers)
with urllib.request.urlopen(req) as response:
the_page = response.read()
</code></pre>
<p>有很多原因可以解释为什么人们不想让脚本破坏他们的网站。它需要他们的带宽。他们不想让人们通过制造一个“刮宝机器人”(scrapbot)从中获益(金钱方面)。也许他们不想让你复制他们的网站信息。你也可以把它当作一本书。作者希望人们阅读他们的书,但也许他们中的一些人不希望机器人扫描他们的书,创建一个非拷贝,或者也许机器人可能会总结它。在</p>
<p>你在评论中的问题的第二部分是含糊和宽泛的回答,因为这里有太多自以为是的答案。在</p>