从下载的HTML页面中提取特定的文本和URI部分

2024-10-01 07:37:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我下载了许多html页面,我想从每个这样的标签中提取(单个文件存储在目录和子目录中)

            <h2><a href="index.html">TITLE</a></h2>
            <p class="postTime">7 September, 2011 - 20:43</p>

            <p>TEXT</p>
            <p>TEXT</p>

            <p class="postmetadata">
              Posted by Person in <a href="../../category/THECATEGORY/index.html" 

我需要提取以下信息

来自h2:标题
p(没有任何类的那一个):TEXT,TEXT
postmetadata类中的a:类别

可以使用任何编程语言,但最好是Python。我正在使用Linux。你知道吗


Tags: 文件text目录indextitlehtml页面标签