xml.sax文件解析器和行号

import sys import xml.sax class EltHandler( xml.sax.handler.ContentHandler ): def __init__( self, locator ): xml.sax.handler.ContentHandler.__init__( self ) self.loc = locator self.setDocumentLocator( self.loc ) def startElement( self, name, attrs ): pass def endElement( self, name ): pass def characters( self, data ): lineNo = self.loc.getLineNumber() print >> sys.stdout, "LINE", lineNo, data def spit_lines( filepath ): try: parser = xml.sax.make_parser() locator = xml.sax.expatreader.ExpatLocator( parser ) handler = EltHandler( locator ) parser.setContentHandler( handler ) parser.parse( filepath ) except IOError as e: print >> sys.stderr, e if len( sys.argv ) > 1: filepath = sys.argv[1] spit_lines( filepath ) else: print >> sys.stderr, "Try providing a path to an XML file."

2条回答

网友

1楼 · 编辑于 2024-09-30 06:29:31

sax解析器本身应该为内容处理程序提供定位器。定位器必须实现某些方法，但它可以是任何对象，只要它有正确的方法。^{} class是定位器应该实现的接口；如果解析器向处理程序提供了一个locator对象，那么就可以指望定位器上存在这4个方法了。在

解析器只鼓励设置定位器，不需要这样做。expat-XML解析器确实提供了它。在

如果您子类^{}，那么它将为您提供一个标准的setDocumentHandler()方法，并且在调用处理程序上的.startDocument()时，您的内容处理程序实例将设置self._locator：

from xml.sax.handler import ContentHandler

class MyContentHandler(ContentHandler):
    def __init__(self):
        ContentHandler.__init__(self)
        # initialize your handler

    def startElement(self, name, attrs):
        loc = self._locator
        if loc is not None:
            line, col = loc.getLineNumber(), loc.getColumnNumber()
        else:
            line, col = 'unknown', 'unknown'
        print 'start of {} element at line {}, column {}'.format(name, line, col)

网友
2楼 · 编辑于 2024-09-30 06:29:31

这是一个老问题，但我认为有一个比给出的答案更好的答案，所以我还是要再加一个答案。在
虽然在ContentHandler超类中可能确实存在一个名为_locator的未记录的私有数据成员，正如Martijn在上面的回答中所描述的，但是在我看来，使用这个数据成员访问位置信息并不是定位工具的预期用途。在
在我看来，史蒂夫·怀特提出了一些很好的问题，为什么这个成员没有被记录在案。我认为这些问题的答案是，它可能不是为了供公众使用。它似乎是ContentHandler超类的私有实现细节。由于它是一个没有文档记录的私有实现细节，它可能会随着SAX库的任何未来版本而消失，因此依赖它可能是危险的。在
从阅读ContentHandler类的文档，特别是ContentHandler.setDocumentLocator，设计人员希望用户改为重写ContentHandler.setDocumentLocator函数，以便当解析器调用它时，用户的contenthandler子类可以保存对传入的locator对象（由SAX解析器创建）的引用，并且可以在以后使用保存的对象来获取位置信息。例如：
class MyContentHandler(ContentHandler): def __init__(self): super().__init__() self._mylocator = None # initialize your handler def setDocumentLocator(self, locator): self._mylocator = locator def startElement(self, name, attrs): loc = self._mylocator if loc is not None: line, col = loc.getLineNumber(), loc.getColumnNumber() else: line, col = 'unknown', 'unknown' print 'start of {} element at line {}, column {}'.format(name, line, col)
有了这种方法，就没有必要依赖于未记录的字段。在

相关问题更多 >

编程相关推荐

热门问题

热门文章