HTMLParseError:第54列第1行的标记部分中未知的状态关键字u'cadta'

2024-09-28 22:32:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我收到以下错误消息

HTMLParseError: unknown status keyword u'cadta' in marked section, at line 1, column 54

当我尝试使用以下代码删除HTML标记时:

^{pr2}$

通过调用strip_tags()来获取这段文本:

how to Fetch data from an XML file with tags <title> <![CADTA[text here]]> </title>?

这是怎么回事?我该怎么解决?在

谢谢。在


Tags: in消息titlestatus错误linetagssection
2条回答

它应该是CDATA,而不是{}。检查语法。

我添加了一个Try/Except来捕捉错误,只是不删除有问题的字符串的标记:

def strip_tags(html):
    s = MLStripper()

    try:
        s.feed(html.decode("utf-8"))
        return s.get_data()
    except:
        return html

相关问题 更多 >