从HTMLpars中获取HTML子树

class genericParser(HTMLParser): def __init__ (self): HTMLParser.__init__(self) self.divFound = False def handle_starttag (self, tag, attrs): if tag == "div" and ("class", "good") in attrs: self.divFound = True def handle_data (self, data): if self.divFound: print data ## print nothing parser = specificParser () parser.feed (data) self.divFound = False

1条回答

网友

1楼 · 发布于 2024-10-01 15:45:17

我已经通过缓冲在有趣的HTML节点中遇到的所有数据来解决这个问题。在

这个方法可以工作，但不是很“干净”，因为GenericParser必须在向特定解析器提供整个感兴趣的块之前解析它。以下是一个“轻松”（无任何错误处理）解决方案：

class genericParser(HTMLParser):
   def __init__ (self):
       HTMLParser.__init__ (self)
       self.divFound = False
       self.buff = ""
       self.level = 0

   def computeRecord (self, tag, attrs):
        mystr = "<" + tag + " "
        for att, val in attrs:
            mystr += att+"='"+val+ "' "
        mystr += ">"
        return mystr

   def handle_starttag (self, tag, attrs):
       if tag == "div" and ("class", "good") in attrs:
           self.divFound = True
       elif self.divFound:
          self.level += 1
          self.buff += self.computeRecord (tag, attrs)

   def handle_data (self, data):
       if self.divFound:
          self.buff += data


   def handle_endtag (self, tag):
      if self.divFound:
         self.buff += "</" + tag + ">"
         self.level -= 1
         if (self.level == 0):
            self.divFound = False
            print self.buff

输出符合要求：

^{pr2}$

正如Birei在评论中所说，我可以更容易地用beauthoulsoup提取子树

soup = BeaufitulSoup (html)
div = soup("div", {"class" : "good"})
children = div[0].findChildren ()
print children[0]   #### desired output

相关问题更多 >

编程相关推荐

热门问题

热门文章