擅长:python、mysql、java
<p>我建议用靓汤,但如果你愿意坚持:</p>
<pre><code>import re
regex_fmla = '(?:title=[\'"])([\w :\':/.]+)'
c1 = '<a href="/climate/cote-d-ivoire.html" title="Climate data: Côte d\'Ivoire">Côte d\'Ivoire</a>'
c2 = '<a href="/climate/cameroon.html" title="Climate data: Cameroon">Cameroon</a>'
c_list = [c1, c2]
for c in c_list:
print(re.findall(regex_fmla, c, flags=re.UNICODE))
</code></pre>
<p>我相信导致<code>re.UNICODE</code>不能工作的问题是显式地将表达式中的字母表定义为<code>[A-z0-9]</code>。如果我们将其更改为<code>[\w]</code>,则标志将正常工作</p>