从微格式解析hentry。
hentr的Python项目详细描述
使用微格式标记解析设计良好的网页。如果你没有 关于微格式的知识,看看 http://microformats.org/wiki/hentry。
hentry模式如下:
<article class="hentry"> <h1 class="entry-title">Article title</h1> <time class="updated" datetime="2014-11-06T20:00:00Z" pubdate>2014-11-06</time> <div class="entry-content"> <p>Here is the content</p> </div> <div class="entry-tags"> <a href="#tag1" rel="tag">tag1</a> <a href="#tag2" rel="tag">tag2</a> </div> <div class="vcard author"> <span class="fn">Author Name</span> </div> </article>
有了这个库hentry.py,您可以将html解析为元数据:
hentry.parse_html(text, format='html')
安装
使用pip安装hentry:
$ pip install hentry
基本用法
使用url解析网页:
hentry.parse_url(url)
分析包含HTML内容的网页:
hentry.parse_html(content)
结果是一个dict,它包含:
- 标题
- 内容
- 作者
- 发布日期
- 标签
- 类别
- 图像