通过使用一系列模式匹配和重写规则来计算“最佳猜测”,从示例中推断日期格式日期时间.strtime格式字符串给出一个示例日期字符串列表。
py-dateinfer的Python项目详细描述
pydateinfer
从示例中推断日期格式的Python库。这是一个积极的 保留原始dateinfer的分叉 Jeffery Starr图书馆。它保持了python2/3的兼容性,并且 将作为pydateinfer发布。欢迎拉请求和问题。在
目录
问题陈述
假设您得到了一个很大的文档集合,作为提取过程的一部分,提取日期信息并以标准化格式存储。 如果一个字符串模式的理想解析方法是使用单一日期模式。 但是,如果文档遵循不同的模式,或者内容很混乱(例如,日期字段是手工填充的),那么开发可能会变得非常繁重。在
此库根据中的示例对正确的日期解析字符串(datetime.strptime
)进行“最佳猜测”
文件。在
安装
git clone https://github.com/nedap/dateinfer.git
cd dateinfer
pip install .
用法
^{pr2}$给dateinfer.infer
一个日期字符串示例列表。infer
返回datetime.strftime
/strptime
兼容的
日期格式字符串为其“最佳猜测”格式字符串,将正确解析大多数示例。在
开发
使用以下命令在本地安装包以用于开发目的:
# create empty virtual environment virtualenv venv --python=python3.7 source venv/bin/activate # install dateinfer in editable mode pip install -e . # install development dependencies pip install -r requirements.txt
可以按如下方式运行单元测试:
python -m unittest dateinfer/tests.py
- 项目
标签: