检测anamolies的python工具
CSV-anomaly-detector的Python项目详细描述
csv anamoly检测器:
一个检测csv文件(特别是大文件)中anamoly的工具
工具描述:
如果您使用的是一个大型csv文件,其中扫描每个
行的anamoly是一项艰巨的任务,则此工具非常方便。即使文件是从可靠的
源接收的,在继续下一步之前,始终可以安全地验证文件的准确性。
每个列都有一个标题,所有这些都将在任何
csv文件的第一行提到,我们将在整个页面中称之为“header”。
该工具采用逐头扫描的方法。扫描每个header后,将标识主导的
数据类型,并假设任何其他数据类型(“我们没有得出结论
,因为最终决定取决于用户“)的缺陷。
工具中描述的数据类型非常详尽,即使是漏掉的普通眼睛也会被工具检测到。
ex.r0han与rohan不同(在第一种情况下,请注意0而不是“o”。
命令行执行:
假设我们有一个名为mock.csv&;我们的源代码在automation.py中查看文件头:
python automation.py columns--file name=mock.csv
“IP_address”]
其中上述数组的每个元素都是一个头
以查找每个头中的元素(例如电子邮件):
python automation.py executecolumns--filename=mock.csv--columns=email
您将看到这两个响应中的任何一个:
1)此列看起来没有错误。
2)请打开impropertadata.txt(此文件包含所有易出错的条目)
错误)
--filename=mock.csv(将抛出错误)
--filename=mock.csv(将抛出错误)
--filename=mock.csv(将给出结果)
一个检测csv文件(特别是大文件)中anamoly的工具
工具描述:
如果您使用的是一个大型csv文件,其中扫描每个
行的anamoly是一项艰巨的任务,则此工具非常方便。即使文件是从可靠的
源接收的,在继续下一步之前,始终可以安全地验证文件的准确性。
每个列都有一个标题,所有这些都将在任何
csv文件的第一行提到,我们将在整个页面中称之为“header”。
该工具采用逐头扫描的方法。扫描每个header后,将标识主导的
数据类型,并假设任何其他数据类型(“我们没有得出结论
,因为最终决定取决于用户“)的缺陷。
工具中描述的数据类型非常详尽,即使是漏掉的普通眼睛也会被工具检测到。
ex.r0han与rohan不同(在第一种情况下,请注意0而不是“o”。
命令行执行:
假设我们有一个名为mock.csv&;我们的源代码在automation.py中查看文件头:
python automation.py columns--file name=mock.csv
“IP_address”]
其中上述数组的每个元素都是一个头
以查找每个头中的元素(例如电子邮件):
python automation.py executecolumns--filename=mock.csv--columns=email
您将看到这两个响应中的任何一个:
1)此列看起来没有错误。
2)请打开impropertadata.txt(此文件包含所有易出错的条目)
错误)
--filename=mock.csv(将抛出错误)
--filename=mock.csv(将抛出错误)
--filename=mock.csv(将给出结果)