擅长:python、mysql、java
<p>有一个名为<a href="https://github.com/earwig/mwparserfromhell" rel="nofollow">mwparserfromhell on Github</a>的模块,根据您的需要,它可以让您非常接近您想要的东西。它有一个名为strip_code()的方法,可以去除很多标记。在</p>
<pre><code>import pywikibot
import mwparserfromhell
test_wikipedia = pywikibot.Site('en', 'test')
text = pywikibot.Page(test_wikipedia, 'Lestat_de_Lioncourt').get()
full = mwparserfromhell.parse(text)
stripped = full.strip_code()
print full
print '*******************'
print stripped
</code></pre>
<p>比较代码段:</p>
^{pr2}$