擅长:python、mysql、java
<p>看起来web服务器要求您在向Python的urllib提供内容之前进行身份验证。但是,它们整齐地为<code>wget</code>和{<cd2>}和{a1}似乎不存在,所以我认为这样的刮擦对它们来说是可以的。不过,最好先问问他们。在</p>
<p>至于代码,简单地将用户代理字符串更改为他们更喜欢的字符串似乎可以奏效:</p>
<pre><code>#!/usr/bin/env python
# -*- coding: utf-8 -*-
from urllib.request import urlopen, Request
request = Request(
'https://clarity-project.info/tenders/?entity=38163425&offset=100',
headers={
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:55.0) Gecko/20100101 Firefox/55.0'})
html = urlopen(request).read().decode()
</code></pre>
<p>(无关,您的代码中有另一个错误:bsObj≠bsObg)</p>
<p><strong>编辑</strong>在下面添加代码,以回答评论中的其他问题:</p>
<p>您似乎需要找到dataid属性的值,而不管它属于哪个标记。下面的代码就是这样做的:</p>
^{pr2}$
<p>关键是简单地使用<code>lambda</code>表达式作为BeautifulSoup的<code>findAll</code>函数的参数。在</p>