擅长:python、mysql、java
<p>既然您使用的是beauthoulsoup,那么为什么要使用regex。我只向您展示了如何实现您想要的输出(即<code>lll</code>),前提是我没有弄错。在</p>
<p>我在Python2.7中,所以我修改了一些代码——这段代码提取了<code>a</code>标记内的内容和<code>p</code>标记内的内容并相应地打印出来。在</p>
<pre><code>from urllib2 import urlopen
from bs4 import BeautifulSoup
u='http://fortune.com/2015/12/31/wall-street-boutiques-did-well/'
r=urlopen(u)
s=BeautifulSoup(r.read(),'html.parser')
x=s.findAll('p')
for i in x:
if len(i.select('a'))>0:
print "Inside a {0}".format(''.join([j.text.encode('utf-8') for j in i.select('a')]))
else:
print "Inside p {0}".format(i.text.encode('utf-8'))
</code></pre>
<p>输出-</p>
^{pr2}$