Python:regex中的名称错误

`import urllib.request from bs4 import BeautifulSoup import re lll='' f=open('n.txt','w') u='http://fortune.com/2015/12/31/wall-street-boutiques-did-well/' r=urllib.request.urlopen(u) s=BeautifulSoup(r.read(),'html.parser') x=s.findAll('p') print(r.read()) for p in x: l=str(p) ll=re.findall('<p>(.*)<a .*>',l) for t in ll: l1=t ln=re.findall('<a .*>(.*)</a>',l) for t in ln: l2=t lnn=re.findall('</a>(.*)</p>',l) for t in ll: l3=t lll= str(lll)+str(ll)+str(l2)+str(l3)`

2条回答

网友

1楼 · 编辑于 2024-10-02 04:37:28

既然您使用的是beauthoulsoup，那么为什么要使用regex。我只向您展示了如何实现您想要的输出（即lll），前提是我没有弄错。在

我在Python2.7中，所以我修改了一些代码——这段代码提取了a标记内的内容和p标记内的内容并相应地打印出来。在

from urllib2 import urlopen
from bs4 import BeautifulSoup

u='http://fortune.com/2015/12/31/wall-street-boutiques-did-well/'
r=urlopen(u)
s=BeautifulSoup(r.read(),'html.parser')
x=s.findAll('p')
for i in x:
    if len(i.select('a'))>0:
        print "Inside a {0}".format(''.join([j.text.encode('utf-8') for j in i.select('a')]))
    else:
        print "Inside p {0}".format(i.text.encode('utf-8'))

输出-

^{pr2}$

网友

2楼 · 编辑于 2024-10-02 04:37:28

re.findall('<p>(.*)<a .*>',l)没有找到任何匹配项，因此ll是{}，这意味着{}循环了零次，这意味着分配{}从未发生过。在

仔细检查正则表达式并进行更正，使其与应用它的内容相匹配。在

相关问题更多 >

编程相关推荐

热门问题

热门文章