我下载了许多html页面,我想从每个这样的标签中提取(单个文件存储在目录和子目录中)
<h2><a href="index.html">TITLE</a></h2>
<p class="postTime">7 September, 2011 - 20:43</p>
<p>TEXT</p>
<p>TEXT</p>
<p class="postmetadata">
Posted by Person in <a href="../../category/THECATEGORY/index.html"
我需要提取以下信息
来自h2
:标题
从p
(没有任何类的那一个):TEXT,TEXT
从postmetadata
类中的a
:类别
可以使用任何编程语言,但最好是Python。我正在使用Linux。你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐