hiereskopia包是一个库,用于推断对象或字符串类型熊猫系列中的日期格式或数字分隔符等属性。
hieroskopia的Python项目详细描述
海罗斯科皮亚
hiereskopia包是一个库,用于推断对象或字符串类型熊猫系列中的日期格式或数字分隔符等属性。在
支持
日期时间:
- 支持日期和日期时间格式
- 此库接收序列作为输入并尝试返回 一个字典,其格式在基于1989 C(Default)的系列中找到, 雪花标准或Java简单日期时间格式代码。在
数字:
- 此库接收序列作为输入并尝试返回 有三位数和十进制字符分隔符的词典
使用
推断日期时间
>>>fromhieroskopiaimportInferDatetime>>>InferDatetime.infer(pd.Series(["2019-11-27","2019/11/28","2018-11-08"]))>>>{'formats':['%Y-%m-%d','%Y/%m/%d'],'type':'datetime'}
使用return_format
参数
>>>fromhieroskopiaimportInferDatetime>>>InferDatetime.infer(pd.Series(["2019-11-27","2019/11/28","2018-11-08"]),return_format='java')>>>{'formats':['yyyy-MM-dd','yyyy/MM/dd'],'type':'datetime'}
上面的方法使用最佳猜测方法来检测对象类型系列中的格式并尝试
返回一个datetime.strftime
/strptime
,Snowflake Date format
,Java Simple Date Format
格式,该格式将覆盖或解析大多数
样品的数量。在
推断数字
>>>fromhieroskopiaimportInferNumeric>>>InferNumeric.infer(pd.Series(['767313628196.2','76731362819.546','767313628196']))>>>{'three_digit_separator':'','decimal_separator':'.','type':'float'}
上面的方法将尝试检测并返回对象类型系列中的某些属性
像datatype
、three_digit_separator
或decimal_separator
字符,它将覆盖
大多数样本。在
待办事项:
- 提供更多正则表达式
- 添加时间格式
- 开发多种算法以获得更好的精度。在
- 项目
标签: