我有一个嵌入了xml剪贴的html文件,源代码粘贴在pastbin中:
<html>
<head>
<title> test֤</title>
</head>
<body>
<form name="acsForm" action="" method="post" >
<textarea rows=10 cols=80 name="xmlText"><?xml version="1.0" encoding="UTF-8"?>
<samlp:Response xmlns:samlp="urn:oasis:names:tc:SAML:2.0:protocol">
</samlp:Response>
</textarea>
<textarea name="2nd"> text2....</textarea>
</form>
</body>
</html>
我的任务是从HTML中提取包含在第一个textarea
中的文本,这是一个XML片段。没有对原始片段进行任何更改。我可以通过使用beauthoulsoup来获得它,但它会将所有标记名改为小写。在
也许lxml会起作用,虽然我自己从来没有用过它,所以我不知道做你想做的事情有多简单/复杂。在
(啊!为什么这么多作者似乎认为
<textarea>
内容不需要HTML转义?傻瓜!)在不幸的是,beauthoulsoup3.1没有应用(不正确但常见的)浏览器链接,即将}字符视为文本,而是创建真正的XML元素。在
<
和{BeautifulSoup 3.0可以应付。Why there's a difference.
尝试使用BeautifulGroup库的^{} 部分,它是为XML设计的。在
相关问题 更多 >
编程相关推荐