Python清理字符串中的html

2024-10-01 04:44:14 发布

您现在位置:Python中文网/ 问答频道 /正文

有没有方法可以转义字符串中的所有引号和双引号?在

例如,如果我有一个这样的字符串:

Hi my name is 'Shelby"

有没有办法对它进行预处理以转义那个字符串?在

编辑:

也许这不是解决问题的最佳方法。这就是我要做的,我有一个工具,可以分析swf文件(即swftools->;swfdump),但有时,一些恶意的swf文件将包含html标记,我将这些结果输出到一个页面。那么,有没有一种方法可以清理python中的这些html标记?在

字符串示例:

 (    3 bytes) action: Push Lookup16:443 ("title_txt")
 (    0 bytes) action: GetMember
 (    6 bytes) action: Push Lookup16:444 ("htmlText") Lookup16:445 ("Please check your Log In info.")
 (    0 bytes) action: SetMember
 (   14 bytes) action: Push int:2 int:1 register:1 Lookup:30 ("login_mc")

对于说Please check your log info的部分,它应该说:font color = '#ff0000'


Tags: 文件方法字符串标记infoyourbyteshtml
2条回答

如果您使用像JinjaGenshi这样的模板,它们已经为您完成了。嵌入到页面中的所有文本都将被正确转义,除非您明确告诉它不要转义。在构建web页面时,使用模板引擎可能是个好主意。在

如果您只是要进行HTML清理,可以尝试以下操作:

如果要添加更多转义类型,这可能是最简单的方法:

def escape(htmlstring):
    escapes = {'\"': '"',
               '\'': ''',
               '<': '&lt;',
               '>': '&gt;'}
    # This is done first to prevent escaping other escapes.
    htmlstring = htmlstring.replace('&', '&amp;')
    for seq, esc in escapes.iteritems():
        htmlstring = htmlstring.replace(seq, esc)
    return htmlstring

这将用正确的HTML转义码替换&'"<和{}的每个实例。在

有关HTML转义的详细信息:

Wikipedia HTML Page

Every Escape imaginable

逃跑快乐!在

相关问题 更多 >