用BeautifulSoup在HTML中搜索和替换

网友

1楼 · 编辑于 2024-07-05 14:15:02

这将在每个<a>...</a>元素的末尾插入一个 标记：

from BeautifulSoup import BeautifulSoup, Tag

# ....

soup = BeautifulSoup(data)
for a in soup.findAll('a'):
    a.parent.insert(a.parent.index(a)+1, Tag(soup, 'br'))

不能使用soup.findAll(tag = '</a>')，因为BeautifulSoup不单独操作结束标记-它们被视为同一元素的一部分。

如果您想按照您在注释中的要求将<a>元素放入元素中，可以使用以下命令：

for a in soup.findAll('a'):
    p = Tag(soup, 'p') #create a P element
    a.replaceWith(p)   #Put it where the A element is
    p.insert(0, a)     #put the A element inside the P (between <p> and </p>)

同样，您不会分别创建和，因为它们是同一事物的一部分。

网友

2楼 · 编辑于 2024-07-05 14:15:02

假设您知道有一个元素包含“br”标记标记，一种用不同字符串移除和替换“br”标记的方法如下：

originalSoup = BeautifulSoup("your_html_file.html")
replaceString = ", " # replace each <br/> tag with ", "
# Ex. <p>Hello<br/>World</p> to <p>Hello, World</p>
cleanSoup = BeautifulSoup(str(originalSoup).replace("<br/>", replaceString))

网友

3楼 · 编辑于 2024-07-05 14:15:02

不替换结束标记；在BeautifulSoup中，处理的是一个文档对象模型，就像在浏览器中一样，而不是一个充满HTML的字符串。因此，如果不同时替换开始标记，则无法“替换”结束标记。

您要做的是在<a>...</a>元素之后立即插入一个新的 元素。为此，您需要找出父元素中<a>元素的索引，并在该索引之后插入新元素。例如

soup= BeautifulSoup('<body>blah <a href="foo">blah</a> blah</body>')
for link in soup.findAll('a'):
    br= Tag(soup, 'br')
    index= link.parent.contents.index(link)
    link.parent.insert(index+1, br)
# soup now serialises to '<body>blah <a href="foo">blah</a><br /> blah</body>'

相关问题更多 >

编程相关推荐

热门问题

热门文章

用BeautifulSoup在HTML中搜索和替换

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >