擅长:python、mysql、java
<p>我几乎总是推荐使用beauthoulsoup—但是,这个页面似乎有一个“<;!>;'标记已下移一半,这会杀死解析器。所以,<code>re</code>去营救。。。在</p>
<pre><code>import urllib
import re
url = 'http://www.rob389.com/dp/tr/11/9789754681383'
txt = urllib.urlopen(url).read()
pat = re.compile(r'tOBJ\.DATA\[0\]\.(\w+)\s*=\s*([^;]*);', flags=re.M|re.DOTALL)
my_dict = dict((k,v.strip('"')) for k,v in pat.findall(txt))
</code></pre>
<p>这就产生了一个132个词条的字典,包括</p>
^{pr2}$
<p>如果要将其限制为仅限于以“MMM00”开头的键,请尝试</p>
<pre><code>my_dict = dict((k,v.strip('"')) for k,v in pat.findall(txt) if k.startswith('MMM00'))
</code></pre>
<p>它只返回15个项目。在</p>