Python:如何提取嵌入在html文件中的xml?

2024-09-28 20:47:31 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个嵌入了xml剪贴的html文件,源代码粘贴在pastbin中:

<html>
  <head>
    <title> test֤</title>
  </head>
  <body>
    <form name="acsForm" action="" method="post" >
      <textarea rows=10 cols=80 name="xmlText"><?xml version="1.0" encoding="UTF-8"?>
        <samlp:Response xmlns:samlp="urn:oasis:names:tc:SAML:2.0:protocol">
        </samlp:Response> 
      </textarea>
      <textarea name="2nd"> text2....</textarea>             
    </form>
  </body>
</html>

我的任务是从HTML中提取包含在第一个textarea中的文本,这是一个XML片段。没有对原始片段进行任何更改。我可以通过使用beauthoulsoup来获得它,但它会将所有标记名改为小写。在


Tags: 文件nameform源代码title粘贴responsehtml
3条回答

也许lxml会起作用,虽然我自己从来没有用过它,所以我不知道做你想做的事情有多简单/复杂。在

(啊!为什么这么多作者似乎认为<textarea>内容不需要HTML转义?傻瓜!)在

不幸的是,beauthoulsoup3.1没有应用(不正确但常见的)浏览器链接,即将<和{}字符视为文本,而是创建真正的XML元素。在

BeautifulSoup 3.0可以应付。Why there's a difference.

尝试使用BeautifulGroup库的^{}部分,它是为XML设计的。在

相关问题 更多 >