从网页中提取基本信息的工具

pageinfo的Python项目详细描述


pageinfo是一个从网页中提取信息的简单模块。目前,pageinfo将从url返回以下内容,可用位置:



*canonical
*title
*说明
*favicon
*twitter卡数据
*facebook开放图数据



























上面的代码将返回带有可用的页面信息。以下是对“http://www.nytimes.com/pages/technology/index.html”的示例响应:

{
“canonical”:“http://bits.blogs.nytimes.com/2013/11/20/a-gift-from-steve-jobs-returns-home/”
“twitter”:{
“twitter:title”:“史蒂夫·乔布斯送的礼物回家”,
“twitter:image”:“http://graphics8.nytimes.com/images/2013/11/18/technology/bits brilliant jobs/bits brilliant jobs thumblarge.jpg”,
“twitter:description”:“过去33年在尼泊尔加德满都度过的苹果II,大部分被打包在医院地下室,是史蒂芬·乔布斯慈善事业的罕见象征。”,
“twitter:url”:“http://bits.blogs.nytimes.com/2013/11/20/a-gift-from-steve-jobs-returns-home/”
},

“favicon”:“http://bits.blogs.nytimes.com/favicon.ico”,

“facebook”:{
“og:url”:“http://bits.blogs.nytimes.com/2013/11/20/a-gift-from-steve-jobs-returns-home/”,
“og:site\u name”:“bits blog”,
“og:type”:“article”,
“og:description”:“过去33年在尼泊尔加德满都度过的苹果II,大部分打包在医院里。地下室,是史蒂芬·乔布斯慈善事业的罕见象征。”,
“og:title”:“史蒂芬·乔布斯送的礼物回家”,
“og:image”:“http://graphics8.nytimes.com/images/2013/11/18/technology/bits brilliant jobs/bits-brilliant-jobs-videosixteenbynine600.jpg”


“描述”:“过去33年在尼泊尔加德满都度过的苹果II,大部分都被打包在医院的地下室里,是史蒂文·P·乔布斯慈善事业的罕见象征。”,

“标题”:“史蒂文·乔布斯送的礼物回家-纽约时报网”
}

一个最小的响应,使用:

import pageinfo

pageinfo.get_title('http://www.myurl.com')

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java从CSV读取并批量插入数据库Netezza   java如何减少Apache CXF客户端存根对象的内存大小?   ServletsJava。lang.NullPointerException:未设置FileItemFactory   Android中的java,是否有任何使用类格式化一组视图的方法?   java无法使用JACOB创建ActiveXComponent   java组织。日食swt。小部件。组,这个类可以被滚动吗   java如何隐藏javabean中的方法,使其不出现在wsdl中   Java函数式编程:如何将for循环中的ifelse梯形图转换为函数式?   java Openshift:在应用程序之间共享MySQL cartrige   JavaHTTPPOST请求返回HTML代码而不是JSON数据   java为什么我的合并排序比快速排序慢?   java JMH基准测试Neo4j   java在底部导航器上处理rotate,在片段上导航   java错误:链接有关字符串资源的文件资源失败   Javaservlet+ajax+jsp   java:加载带有客户端证书的HTTPS url   java如何使用自定义ConstraintValidator将ConstraintViolations添加到索引i处的列表元素   java是否可以在某些布局中对容器中的组件重新排序?