如果一个事务由两行或更多行表示,有没有一种方法可以使用python对事务(日志)数据进行集群?

2024-05-09 05:51:03 发布

您现在位置:Python中文网/ 问答频道 /正文

在会计中,代表交易的数据集称为“总帐”,其形式如下:

Simplified Data Example

请注意,“日记账”即交易由两个行项目组成。例如,事务处理(日记账编号)1有两行。收到现金和收入。公司也可以有交易记录(日记账),其中可以包括3行项目,甚至更多。你知道吗

我是否首先需要清理数据,使每个日记帐只有一个行项目?即将上述8行清洗成4行。你知道吗

有什么python机器学习算法可以让我无需进一步操作就可以对上述数据进行聚类吗?你知道吗

其目的是检测事务数据中的异常。我不知道什么样的异常看起来像这样,这将需要无监督的学习。你知道吗


Tags: 数据项目算法机器记录公司代表交易
1条回答
网友
1楼 · 发布于 2024-05-09 05:51:03

在数据的每个维度上使用高斯来确定什么是异常。每个维度的均值和方差都会被剔除,如果该维度上新数据点的值低于阈值,则将其视为异常值。这将为每个维度创建一个高斯分布。您可以在这里使用一些特征工程,而不只是在原始数据上拟合高斯函数。你知道吗

如果特征看起来不是高斯的(绘制直方图),那么使用log(x)或sqrt(x)之类的数据变换来改变它们,直到它们看起来更好。你知道吗

如果监督学习不可用,或者如果您想发现新的、以前看不到的异常类型(例如发电厂故障,或有人行为可疑,而不是有人是男性/女性),则使用异常检测

错误分析:然而,如果p(x),一个例子不是异常的概率,对于所有的例子来说都是大的呢?添加另一个维度,并希望它有助于显示异常。您可以通过组合一些其他维度来创建此维度。你知道吗

为了使高斯函数更符合数据的形状,可以将其变为多元函数。然后它采用矩阵的均值和方差,你可以改变参数来改变它的形状。如果你的特征不是完全独立的,它也会显示特征的相关性。你知道吗

https://stats.stackexchange.com/questions/368618/multivariate-gaussian-distribution

相关问题 更多 >

    热门问题