擅长:python、mysql、java
<p><a href="http://www.crummy.com/software/BeautifulSoup/" rel="nofollow">Beautiful Soup</a>就是你问题的答案!试试看,真是太棒了!在</p>
<p>一旦使用了Html解析,它就会变得非常简单。在</p>
<pre><code>>>> text = """A <b>hex triplet</b> is a six-digit, three-<a href="/wiki/Byte"
... enter code heretitle="Byte">byte</a> ..."""
>>> soup = BeautifulSoup(text)
>>> ''.join(soup.findAll(text=True))
u'A hex triplet is a six-digit, three-byte ...'
</code></pre>
<p>如果要提取的所有文本都包含在一些外部标记中,例如<code><body> ... </body></code>或某些{<cd2>},那么可以执行以下操作(本图假设您要提取的所有文本都包含在<code><body></code>标记中)。现在,您可以选择性地从一些所需的标记中提取文本。在</p>
<p>(查看文档和示例,您会发现许多解析DOM的方法)</p>
^{pr2}$