<p>因此,我正在做一些数据分析,其中我需要从数百个HTML和SHTML文件中提取页面标题、breadcrumb、h1标记。在</p>
<p>这些标记的格式如下(表示“内部填充”和“面包屑”):</p>
<pre><code><title>Mapping a Drive: Macintosh OSX &lt; Mapping a Drive &lt; eHelp &lt; Cal Poly Pomona</title>
<p><!-- InstanceBeginEditable name="breadcrumb" --><a href="../index.html">eHelp</a> &raquo; <a href="index.shtml">Mapping a Drive</a> &raquo; Mac OS X<!-- InstanceEndEditable --></p>
<h1><a name="contentstart" id="contentstart"></a><!-- InstanceBeginEditable name="page_heading" --><a name="top" id="top"></a>Mapping a Drive:<span class="goldletter"> Macintosh </span>OS X <!-- InstanceEndEditable --></h1>
</code></pre>
<p>在得到这些标记之后,我想进一步提取标题的第一部分<code>Mapping a Drive: Macintosh OSX</code>,面包屑的最后一部分<code>Mac OS X</code>,以及整个h1<code>Mapping a Drive: Macintosh OSX</code></p>
<p>你知道怎么做到吗?在</p>