从微格式解析hentry。

hentr的Python项目详细描述


使用微格式标记解析设计良好的网页。如果你没有 关于微格式的知识,看看 http://microformats.org/wiki/hentry

hentry模式如下:

<article class="hentry">
    <h1 class="entry-title">Article title</h1>
    <time class="updated" datetime="2014-11-06T20:00:00Z" pubdate>2014-11-06</time>
    <div class="entry-content">
        <p>Here is the content</p>
    </div>
    <div class="entry-tags">
        <a href="#tag1" rel="tag">tag1</a>
        <a href="#tag2" rel="tag">tag2</a>
    </div>
    <div class="vcard author">
        <span class="fn">Author Name</span>
    </div>
</article>

有了这个库hentry.py,您可以将html解析为元数据:

hentry.parse_html(text, format='html')

安装

使用pip安装hentry:

$ pip install hentry

基本用法

使用url解析网页:

hentry.parse_url(url)

分析包含HTML内容的网页:

hentry.parse_html(content)

结果是一个dict,它包含:

  1. 标题
  2. 内容
  3. 作者
  4. 发布日期
  5. 标签
  6. 类别
  7. 图像

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使抽屉布局半开   java为每次更新移动JLabel的位置   Java:如何在gpu上调整图像大小   (Java)从内存中删除实例?   线程“main”java中的sqlite异常。sql。SQLException:接近“s”:语法错误   java如何防止生成空zip文件   java对字符串子字符串方法的困惑   在命令行中运行JAVA+Cucumber+JUnit Maven项目   java Spring@WebListener不可用   java为什么我的代码在查找重复项时出错?   web服务在Java中快速实现、部署web服务   java拖放从角落开始,而不是从最后一个位置开始   mysql Java SQL插入,其中不存在两个相同的值