Python regex查找多行HTML

i=0 while i<len(newschoollist): url = "http://profiles.doe.mass.edu/profiles/general.aspx?topNavId=1&orgcode="+ newschoollist[i] +"&orgtypecode=6&" htmlfile = urllib.urlopen(url) htmltext = htmlfile.read() regex = '>Phone:</td><td>(.+?)</td></tr>' pattern = re.compile(regex) value = re.findall(pattern,htmltext) print newschoollist[i], valuetag, value i+=1

2条回答

网友

1楼 · 编辑于 2024-10-03 13:29:30

最后我用了(soup.get\u文本（））效果很好。谢谢！你知道吗

网友

2楼 · 编辑于 2024-10-03 13:29:30

Use an HTML Parser。使用^{}的示例：

from urllib2 import urlopen
from bs4 import BeautifulSoup

url = 'http://profiles.doe.mass.edu/profiles/general.aspx?topNavId=1&orgcode=00350326'

soup = BeautifulSoup(urlopen(url))
for label in soup.select('div#whiteboxRight table td'):
    value = label.find_next_sibling('td')
    if not value:
        continue

    print label.get_text(strip=True), value.get_text(strip=True)
    print "  "

打印（个人资料联系信息）：

...
  
NCES ID: 250279000331
  
Web Site: http://www.bostonpublicschools.org
  
MA School Type: Public School
  
NCES School Reconstituted: No
...

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python regex查找多行HTML

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >