摘要:隔离森林(Isolation Forest)是一种相对高效的离群点检测算法,但在隔离树构建过程中存在的随机性较大,可能影响算法性能.针对以上问题,本文提出了一种基于隔离森林的快速离群点检测算法.该算法首先通过启发式方法选择隔离树样本,即引入判断条件来确定是否构建隔离树;然后,在建树过程中选取特定的切割点把数据插入到相应的叶子节点,以减少随机选择对算法性能的影响;最后,将若干隔离树组成隔离森林,计算被隔离出的每个叶子节点的离群程度s,选取若干个离群程度较大的数据对象作为最终的离群数据.采用UCI数据集对提出的算法进行了验证,结果显示该算法能够在确保检测精度的前提下有效提高离群检测的效率.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社