擅长:python、mysql、java
<p>我的html文档和元素循环都有问题。我发现BeautifulSoup未能成功解析我的一些HTML文件。我最后在body标记中的所有元素周围插入了一个标记:</p>
<pre><code><body><span id="entirebody">
:
</span></body>
</code></pre>
<p>这意味着所有元素都包含在一个span元素中并成功处理。当我不这么做的时候,我想深入了解到底发生了什么,但这是解决你可能遇到的问题的一种方法。</p>
<pre><code>def insertSpan(htmlString):
'''
Insert a span tag around all of body contents:
<body><span id="entirebody">....</span></body>
'''
subRe = re.compile(r'(<body>)(.*)(<\/body>)', re.DOTALL)
htmlString = subRe.sub("\g<1><span id=\"entirebody\">\g<2></span>\g<3>",htmlString)
return htmlString
</code></pre>