Python jparser包_程序模块 - PyPI

一个可从HTML页面中提取标题、内容、图像的可读解析器

jparser的Python项目详细描述

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()

print "==title=="
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']

欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

热门话题: java这句话的第一个<U>是什么意思？ java在Android中转换为无符号字符和无符号短字符 java数学。显示工作结果的acos java JDBC Mysqlconnector位于类路径中，但未找到 java hsqldb hibernate persist@Lob 集合对象无法显示在java、Arraylist、Collection中显示某些未定义值的输出在Java中尝试在二叉搜索树上实现级别顺序遍历如何在java对象中获取注释 java在会话超时时删除自定义cookie java JDBC编程返回语句上未选中强制转换的java警告初学者二进制搜索中的java错误 java Azure BlockBlobClient下载时响应文件大小问题 JavaSeleniumWebDriver正在寻找Chrome的错误路径。exe amazon web服务AWS Lambda（Java）调用错误的对象实例检测到java Eclipse插件，但未加载 Java中类似于PHP的playframework Autoloader java使用Google应用程序引擎生成实体列表，希望在Android客户端访问它 JavaZK国际化：UNICODE代替重音字符

jparser 0.0.20

jparser的Python项目详细描述

推荐PyPI第三方库

flowtracks

mopen

spik

morphr

flaskstaticdigest

bifrost-src

browsercookie3

pyobjcframeworkcoremotion

ashr-distributions

rake-spac

context-var

ao-aws-ml-course

dsnd-statsprob

AkerFlight

perfectolibrary-py37

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

jparser 0.0.20

jparser的Python项目详细描述

推荐PyPI第三方库

flowtracks

mopen

spik

morphr

flaskstaticdigest

bifrost-src

browsercookie3

pyobjcframeworkcoremotion

ashr-distributions

rake-spac

context-var

ao-aws-ml-course

dsnd-statsprob

AkerFlight

perfectolibrary-py37

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签