Python美化组XML解析

2024-05-03 11:33:50 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经编写了一个简单的脚本来使用BeautifulSoup模块解析XML聊天日志。标准的soup.prettify()工作正常,只是聊天日志中有很多绒毛。您可以看到脚本代码和我正在使用的一些XML输入文件,如下所示:

代码

import sys
from BeautifulSoup import BeautifulSoup as Soup

def parseLog(file):
    file = sys.argv[1]
    handler = open(file).read()
    soup = Soup(handler)
    print soup.prettify()

if __name__ == "__main__":
    parseLog(sys.argv[1])

测试XML输入

<?xml version="1.0"?>
<?xml-stylesheet type='text/xsl' href='MessageLog.xsl'?>
<Log FirstSessionID="1" LastSessionID="2"><Message Date="10/31/2010" Time="3:43:48 PM"     DateTime="2010-10-31T20:43:48.937Z" SessionID="1"><From><User FriendlyName="Jon"/></From>    <To><User FriendlyName="Bill"/></To><Text Style="font-family:Segoe UI; color:#000000; ">hey, what's up?</Text></Message>
<Message Date="10/31/2010" Time="3:44:03 PM" DateTime="2010-10-15T20:44:03.421Z" SessionID="1"><From><User FriendlyName="Jon"/></From><To><User FriendlyName="Bill"/></To><Text Style="font-family:Segoe UI; color:#000000; ">Got your message</Text></Message> 
<Message Date="10/31/2010" Time="3:44:31 PM" DateTime="2010-10-15T20:44:31.390Z" SessionID="2"><From><User FriendlyName="Bill"/></From><To><User FriendlyName="Jon"/></To><Text Style="font-family:Segoe UI; color:#000000; ">oh, great</Text></Message>
<Message Date="10/31/2010" Time="3:44:59 PM" DateTime="2010-10-15T20:44:59.281Z" SessionID="2"><From><User FriendlyName="Bill"/></From><To><User FriendlyName="Jon"/></To><Text Style="font-family:Segoe UI; color:#000000; ">hey, i gotta run</Text></Message>

我希望能够将其输出为如下格式,或者至少是比纯XML更可读的格式:

乔恩: 嘿,怎么了?[10/31/10@3:43p]

乔恩: 收到你的留言了[10/31/10@3:44p]

帐单: 哦,太好了[10/31/10@3:44p]

等等。。我听说了一些关于PyParsing模块的好消息,也许是时候试试了。


Tags: totextfrommessagedatetimedatetimestyle
2条回答

BeautifulSoup使获取xml中的属性和值变得非常简单。我调整了示例函数以使用这些功能。

import sys
from BeautifulSoup import BeautifulSoup as Soup

def parseLog(file):
    file = sys.argv[1]
    handler = open(file).read()
    soup = Soup(handler)
    for message in soup.findAll('message'):
        msg_attrs = dict(message.attrs)
        f_user = message.find('from').user
        f_user_dict = dict(f_user.attrs)
        print "%s: %s [%s @ %s]" % (f_user_dict[u'friendlyname'],
                                    message.find('text').decodeContents(),
                                    msg_attrs[u'date'],
                                    msg_attrs[u'time'])


if __name__ == "__main__":
    parseLog(sys.argv[1])

我建议使用内置的ElementTree模块。BeautifulSoup是用来处理格式不好的代码,比如被黑客攻击的HTML,而XML是格式良好的,应该由XML库读取。

更新:我最近在这里读到的一些文章建议将lxml作为一个建立在标准元素树之上并增强其功能的库。

相关问题 更多 >