快速脏日期解析python库解析html日期非常快

qddate的Python项目详细描述


一个简单而肮脏的python解析器日期,在html抓取过程中可以找到的日期。图片::https://img.shields.io/travis/ivbeg/qddate/master.svg?style=flat square
:目标:https://travis ci.org/ivbeg/qddate
:alt:travis构建状态

…图片::https://img.shields.io/pypi/v/qddate.svg?style=flat square
:目标:https://pypi.python.org/pypi/qddate
:alt:pypi版本

…图片::https://readthedocs.org/projects/qddate/badge/?version=latest
:目标:http://qddate.readthedocs.org/en/latest/?徽章=最新
:alt:文档状态

…图像::https://codecov.io/gh/scrapinghub/dateparser/branch/master/graph/badge.svg
:目标:https://codecov.io/gh/ivbeg/qddate
:alt:code coverage

。图片::https://badges.gitter.im/scrapinghub/dateparser.svg
:alt:加入聊天,网址:https://gitter.im/ivbeg/qddate
:target:https://gitter.im/ivbeg/qddate?utm戋u source=badge&utm戋u medium=badge&utm戋u campaign=pr badge&utm戋u content=badge



`qddate'是一个python 3库,它帮助快速解析html页面中的任何日期字符串。这个库是在长期的
新闻聚合工作中创建的,并在带有日期的野生html页面中进行分析。它并不打算有漂亮的代码,
支持尽可能多的语言等等。它应该有助于处理数以百万计的字符串来识别
和分析日期。qddata是"新闻重建"专有技术的一部分。它用于从没有它的站点自动创建
rss源。





/>
文档
==


文档是自动生成的,可以在
`阅读文档<;https://qddate.read the docs.org/en/latest/>;` `.




功能
==

*支持348种以上的日期模式(到2017年底)
*通用parsin英语、俄语、西班牙语、葡萄牙语和其他语言中的g of dates
*支持带有左对齐日期和补充词的字符串。示例:"12.03.1999此处有些文本"
*速度极快,使用pyparsing、硬编码常量和脏速度优化技巧



基于GE的日期模式,例如在DateParser中。
*可能会丢失一些很少使用的日期格式
*不支持相对日期
*不支持日历



>速度优化
==

*所有常量都是硬编码的,没有外部设置
*仅使用datetime和pyparsing作为外部库。不再有依赖关系,所有重用代码都合并到lib代码中
*没有正则表达式,而是预先生成的pyparsing模式
*使用最小/最大文本长度筛选器和通用文本模式进行密集的模式筛选
*没有任何设置/数据文件从磁盘加载




usage
==


最简单的方法是使用"qddate.dateparser<;\qddate.dateparser>;``类,
和它的"parse"函数。








/>>;>parser.parse('2012-12-15')
datetime.datetime(2012,12,15,0,0)
2015年)
日期时间。日期时间(2015年1月13日13日34日)




尝试分析给定字符串中的日期,每次都尝试检测语言。








dependencies
=


*pyparsing是一个高级文本处理模块。
。_ pyparsing:https://pypi.python.org/pypi/pyparsing




支持的语言
===


*保加利亚语
*捷克语
*英语
*法语
*德语
*葡萄牙语
*俄语
*西班牙语


谢谢
=
ar和后来的版本只更新了几次,从正则表达式迁移到pyparsing。查看"dateparser"<;https://github.com/scrapinghub/dateparser>;`clean code and documentation促使我返回并清理此代码并公开共享。我使用了相同的文档和代码样式方法,并重用了dateutil的构建脚本和文档生成样式。
多亏了scrapinghub团队!



…图片::https://badges.gitter.im/qddate/lobby.svg
:alt:在https://gitter.im/qddate/lobby加入聊天
:target:https://gitter.im/qddate/lobby?联合技术手册来源=徽章和联合技术手册媒介=徽章和联合技术手册活动=公关徽章和联合技术手册内容=徽章

…:更改日志:


history
==



<0.1.1(2018-07-20)
----
*代码清理,日期模式移到"qddate.patterns"


0.1.0(2018-01-14)
----
*pypi和github上的第一次公开发布

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java在滚动视图中,我需要将图像高度设置为设备的活动高度   JavaSpring引导忽略应用程序中的数据源url。yml   java如何使用常量输入多个@CrossOrigins?   java无法在Android Stduio[libGDX]中“构建APK”   java在哪里设置EJB3客户端的webservice主机名   java不能在j2me应用程序中使用图像   java从对象中检索bean属性值   java在Microsoft botframework Android虚拟助手客户端中提供语音通道机密   匿名类中的java限制   java如何判断是否安装了JRE或JDK   java字符串和循环实践测试   tomcat中的java springboot循环依赖