从下载的HTML页面中提取特定的文本和URI部分

2024-10-01 07:37:51 发布

男 | 程序猿一只，喜欢编程写python代码。

我下载了许多html页面，我想从每个这样的标签中提取（单个文件存储在目录和子目录中）

            <h2><a href="index.html">TITLE</a></h2>
            <p class="postTime">7 September, 2011 - 20:43</p>

            <p>TEXT</p>
            <p>TEXT</p>

            <p class="postmetadata">
              Posted by Person in <a href="../../category/THECATEGORY/index.html"

我需要提取以下信息

来自h2：标题
从p（没有任何类的那一个）：TEXT，TEXT
从postmetadata类中的a：类别

可以使用任何编程语言，但最好是Python。我正在使用Linux。你知道吗

Tags：文件 text 目录 index title html 页面标签

0条回答

目前没有回答

编程相关推荐

不变性使Java对象不可变
相等Java对象的“相同性”是如何定义的？
java发送TCP/IP消息AKKA actor
java什么是字符串的时间复杂度。toCharArray（），O（n）或O（1）
java将时间戳对象的值复制到另一个对象
java我可以在Android上使用PixelMed吗？
java网络适配器无法建立连接，如何修复？
java JPA：在单个字段中存储整数列表
java异步删除密钥以特定字符串开头的文档
exe如何在Java中从控制台应用程序获取实时输出

从下载的HTML页面中提取特定的文本和URI部分

相关问题更多 >

编程相关推荐

热门问题

热门文章

从下载的HTML页面中提取特定的文本和URI部分

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >