擅长:python、mysql、java
<p>这只是剥离标签的基本元素。包括缺少的元素,<br/>
下面的\w表示带前缀和正文的限定unicode标记名,<br/>
它需要一个join()语句来形成子表达式。解析的优点<br/>
使用regex的html/xml不会在第一个格式错误的实例上失败,这<br/>
使它非常适合修理它!缺点是速度慢,尤其是<br/>
使用unicode。在</p>
<p>不幸的是,剥离标记会破坏内容,因为根据定义,标记
<em>格式化</em>内容。在</p>
<p>在一个大网页上试试这个。这应该可以翻译成python。在</p>
<pre><code>$rx_expanded = '
<
(?:
(?:
(?:
(?:script|style) \s*
| (?:script|style) \s+ (?:".*?"|\'.*?\'|[^>]*?)+\s*
)> .*? </(?:script|style)\s*
)
|
(?:
/?\w+\s*/?
| \w+\s+ (?:".*?"|\'.*?\'|[^>]*?)+\s*/?
| !(?:DOCTYPE.*?| .*? )
)
)
>
';
$html =~ s/$rx_expanded/[was]/xsg;
</code></pre>