BeautifulGroup用原始xml替换标记，而无需解析/转义

2条回答

网友

1楼 · 编辑于 2024-09-30 14:15:24

beauthulsoup用于解析HTML。您所拥有的不是HTML，而是XML，所以您可能不应该使用beauthoulsoup，而应该直接使用lxml。在

lxml元素有一个^{}方法，但必须传递给它一个元素，而不是字符串。现在还不清楚您要用什么来替换<c>，但是如果您从一开始就将替换值作为元素创建，则无需解析即可进行替换。在

相反，如果您只想删除一个任意字符串来代替<c>，那么，在XML文档上这不是一个格式良好的操作，而且库无法保证您粘贴的内容是格式正确的，因此无法序列化给定的结果。大多数XML库将明确禁止该操作，因为它将违反XML库试图维护的基本假设和保证。在

网友

2楼 · 编辑于 2024-09-30 14:15:24

我找到了一种方法来创建同样的结果，这种方法对我很有用，但可能不适用于一般情况。它属于问题的“另类”：在解析过的汤之外进行替换。在

在分析主文档之前对大括号进行转义字符串格式设置：

escaped = sub(r'({|})', r'\1\1', input)
soup = BeautifulSoup(escaped, 'lxml')  # or lxml

将<c replace="alpha" />替换为替换字符串（对于所有这些字符串）：

name = c_tag.attrs['replace']
ctag.replace_with(NavigableString('{' + name + ':s}'))

将所有替换项存储在字典中（可能已经是这样）：
```
rep = {'alpha': '<lots /><of-xml />', 'beta': '<b>hi</b>'}
```
使用字符串格式进行所有替换：
```
output = soup.prettify().format(**rep)
```

我承认我的案子有点特别，所以可能对其他人没有帮助。但是在我的例子中，每个<c>可以被包含更多<c>的xml替换，由于多进程通信，每个级别都需要被解析或pickle。（Pickling只比解析快20-50%，并且遇到了硬递归限制）。因此，只需执行一次而不是为每个级别执行此操作可以节省大量时间（在我测试的案例中是系数3），因为regex替换和字符串替换比解析快得多。在

相关问题更多 >

编程相关推荐

热门问题

热门文章