如何用BeautifulSoup连接两个html文件体？

from BeautifulSoup import BeautifulSoup soup_original_1 = BeautifulSoup(''.join(open('test1.html'))) soup_original_2 = BeautifulSoup(''.join(open('test2.html'))) contents_1 = soup_original_1.body.renderContents() contents_2 = soup_original_2.body.renderContents() contents_both = contents_1 + "\n<b>SEPARATOR\n</b>" + contents_2 soup_new = BeautifulSoup(''.join(open('test1.html'))) while len(soup_new.body.contents): soup_new.body.contents[0].extract() soup_new.body.insert(0, contents_both)

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"> <html> <head> <meta http-equiv="content-type" content="text/html; charset=utf-8" /> <title>~/programs/lab_notebook_and_printing/concatenate-html_problem_2013/test1.txt.html</title> <meta name="Generator" content="Vim/7.3" /> <meta name="plugin-version" content="vim7.3_v10" /> <meta name="syntax" content="none" /> <meta name="settings" content="ignore_folding,use_css,pre_wrap,expand_tabs,ignore_conceal" /> <style type="text/css"> pre { white-space: pre-wrap; font-family: monospace; color: #000000; background-color: #ffffff; white-space: pre-wrap; word-wrap: break-word } body { font-family: monospace; color: #000000; background-color: #ffffff; font-size: 0.875em } </style> </head> <body> <pre> File 1 </pre> </body> </html>

3条回答

网友
1楼 · 编辑于 2024-04-27 21:19:17

我的html文档和元素循环都有问题。我发现BeautifulSoup未能成功解析我的一些HTML文件。我最后在body标记中的所有元素周围插入了一个标记：
<body><span id="entirebody"> : </span></body>
这意味着所有元素都包含在一个span元素中并成功处理。当我不这么做的时候，我想深入了解到底发生了什么，但这是解决你可能遇到的问题的一种方法。
def insertSpan(htmlString): ''' Insert a span tag around all of body contents: <body><span id="entirebody">....</span></body> ''' subRe = re.compile(r'(<body>)(.*)(<\/body>)', re.DOTALL) htmlString = subRe.sub("\g<1><span id=\"entirebody\">\g<2></span>\g<3>",htmlString) return htmlString

网友
2楼 · 编辑于 2024-04-27 21:19:17

正如abarnert在对答案的评论中提到的，append有一个问题。
这个answer由Martijn Pieters♦ 完成任务。
从BeautifulSoup 4.4开始（7月15日发布），您可以使用：
import copy document2.body.append(copy.copy(element))

网友
3楼 · 编辑于 2024-04-27 21:19:17

试图将HTML作为文本来阅读，仅仅是为了将其插入HTML中，并且在编码和解码两个方向上进行斗争，这使得大量的额外工作变得非常困难。

最简单的事情就是不要那样做。你想把test2主体中的所有内容都插入test1主体中的所有内容之后，对吧？所以就这么做吧：

for element in soup_original_2.body:
    soup_original_1.body.append(element)

要先附加分隔符，只需对分隔符执行相同的操作：

b = soup.new_tag('b')
b.append('SEPARATOR')
soup.original_1.body.append(b)
for element in soup_original_2.body:
    soup_original_1.body.append(element)

就这样。

请参阅文档部分Modifying the tree，以获得涵盖所有这些内容的教程。

相关问题更多 >

编程相关推荐

热门问题

热门文章