作者:吴远超; 范磊 期刊:《通信技术》 2020年第02期
离群点检测作为数据挖掘的一个重要研究方向,可以从大量数据中发现少量与多数数据有明显区别的数据对象。高维度环境是离群点检测技术的一个重要场景,现实生活中的高维数据中大量无关或嘈杂的特征给基于子空间/特征选择的高维离群点检测方法提出了重大挑战。Pang等人提出了一种将离群点打分和特征选择结合起来的方案CINFO,准确度相比传统的高维度离群点检测算法有所提升。CINFO方法在效率上有改进空间,本文通过引入扩展的孤立森林...
作者:叶福兰 期刊:《中国电子科学研究院学报》 2019年第10期
应用网络流量、日志管理等数据流过程中,常遭设备精度、噪声等问题影响出现大量不确定性数据流,影响数据流的管理与挖掘。相关研究表明,检测数据流中的离群点能够挖掘网络中被忽视的异常数据。因此,提出基于离群点检测的不确定数据流聚类算法,首先,通过微聚类划分算法将数据集划分成若干个微聚类;然后,根据信息熵的微聚类过滤机制获取全局离群点,在离群点微聚类中使用基于距离的方法挖掘出局部离群点;最后,采用不确定数据流子空间...
本文面向某行业公司销售员的交易数据,根据公司过去发现的交易报告中的错误与欺诈企图,帮助公司完成核实销售报告真实性的工作。本文采用聚类算法,分析数据分布情况,发现离群点,解决欺诈交易检测问题。
作者:樊江; 郭勇 期刊:《计算机仿真》 2019年第11期
针对传统的离群点检测算法在机场大数据集上存在着检测精度较低、检测运行时间运行较高等问题,提出基于嵌套循环的机场大数据集离群点检测算法。通过对机场大数据集进行分析,采用划分方法对机场数据集进行初步处理,将较大规模的机场数据集划分成小规模的数据子集。利用嵌套循环算法对机场大数据集离群点进行检测,引入两个剪枝规则对其数据集离群点进行高效剪枝,减少了离群点检测时机场数据点之间距离的计算次数,此完成检测。实验结...
作者:李嘉; 林欢; 蓝秋萍; 马符讯 期刊:《测绘工程》 2014年第11期
离群点的存在会给点云后续处理与应用带来干扰,文中针对扫描过程中快速通过的车辆或行人造成的离群点提出基于深度差的识别与修正方法.分析此类离群点的产生机理,并运用基于球面投影的点云构网方法构建点云的拓扑关系,在此基础上提出根据深度差识别离群点的方法以及兼顾不同点云质量的阈值自动选择方法;设计了基于二次曲面拟合的点云修复方法;利用真实隧道数据进行实验,实验结果验证了文中方法的有效性和稳定性.
作者:李威; 李宏岩; 米守防 期刊:《大连民族大学学报》 2006年第05期
结合基于有权重支持度框架的关联规则挖掘方法和基于超图模型的离群点检测方法,给出了一种离群数据的改进定义,并通过一个简单的实例说明了这种离群数据的离群含义,且与原离群点定义做了比较,分析了新定义离群数据的应用价值.
随着电子商务的迅速发展,越来越多的关键业务已经移植到网络上,网络安全越来越引起人们的关注。入侵检测作为防御体系中的重要组成部分,成为当前网络安全理论的研究热点。将数据挖掘与入侵检测相结合,能够增强入侵检测系统对海量数据的处理能力,使得入侵检测系统具有可扩展性和自学习能力,增强入侵检测系统的检测功能。主要针对离群点挖掘技术在入侵检测系统中的应用展开研究,使传统入侵检测系统具有异常检测能力。
由于测量仪表自身的故障和传感器容易受化工环境的影响会使测量的数据偏离原来的范围,导致离群点的产生,而离群点对软测量模型的预测精度产生很大的影响,因此需要排除离群点。然而由于原料的更换或者过程的切换也会导致所测数据偏移,这些检测数据容易被误判为离群点。针对这一问题本文引入了基于支持向量数据描述(SVDD)的离群点检测方法和提出了基于贝叶斯理论的离群点分类方法,并以航空煤油干点为研究对象进行仿真研究。
作者:丛思安; 王星星 期刊:《电子技术与软件工程》 2018年第17期
k-means算法是一种非常简单并且使用广泛的聚类算法,但是一是k值需要预先给定,很多情况下k值的估计很困难。二是K-Means算法对初始选取的聚类中心点很敏感,不同的中心点聚类结果有很大的不同。也就是说,有可能陷入局部最优解。三是对离群点敏感,聚类结果易产生误差。四是相似性度量的函数不同也会对聚类结果产生影响。本文针对k-means的缺陷,对这几年k-means算法的研究进展进行了综述。从初始中心点的选取、离群点的检测与去除、相...
作者:褚菲; 王洁; 梁涛; 代伟; 贾润达 期刊:《中国科技论文》 2019年第03期
提出了一种基于核密度估计的核偏鲁棒M-回归(kernel partial robust M-regression based on kernel density estimation,KDE-KPRM)方法。以核密度估计加权策略代替原来的M估计加权策略,利用主成分分析技术和核密度函数识别高杠杆点(输入变量空间异常点),利用残差和核密度函数识别高残差点(输出变量空间异常点),无需反复迭代便可以为样本赋予合适权重,有效地提高了建模速率。通过函数仿真和实际工业仿真,证明了所提出的方法比标准的...
作者:王莉莉; 彭勃 期刊:《南京航空航天大学学报》 2018年第05期
针对传统聚类算法在聚类过程中缺乏时间信息而仅考虑三维坐标点的聚类,同时未考虑航空器运行速度和航向变化对聚类结果的影响,以及由于二次雷达机载设备、地面设备和信号遮挡等原因造成的实测数据源中存在离群点异常数据,离群点很难被有效识别出来从而使得非正常航迹点的影响放大,得不到理想的聚类效果等问题。本文提出LOFC算法,引入时间窗分割概念,将航空器进场平均速度值和航向变化值作为确定聚类簇大小的影响因子对进场航...
作者:马琳; 何为; 栾辉; 董智鹤 期刊:《油气田环境保护》 2018年第04期
应用基于统计原理的离群点诊断方法,建立了异常数据识别模型,通过迭代寻找偏差最大的样本数据,完成异常数据的剔除。结果表明,每组样本数据中置信区间以外的数据都被存储并从原始数据样本中被剔除,该算法对于异常数据识别的效果较好。在此基础上,建立了异常数据处理与管理方法体系,通过诊断和处理异常数据,为企业污染源在线监控数据传输有效率及环境保护管理水平的提高提供技术保障。
作者:马晶; 刘建华 期刊:《计算机与数字工程》 2019年第08期
针对传统离群点检测算法对海量高维数据检测性能低下的问题,论文提出一种Spark平台下综合属性权重离群点挖掘算法S-CAWOM,通过对数据对象属性的综合加权处理,使不同的属性发挥不同的作用,并在Spark平台并行化提高算法效率。实验结果表明,该算法具有较高的性能。
基于NBA球员在常规赛期间的统计数据,整合常规赛的场均得分、胜率、命中率等10种指标来衡量球员的综合实力,构建一个数据集,基于距离的离群点检测的方法预测MVP和MVP投票选出的排名前五名的候选人。
作者:徐立 期刊:《河北软件职业技术学院学报》 2018年第02期
传统K-Means对算法使用者有较高的要求,需要明确K值,并确定初始中心点的位置。通过定义、检测并删除离群点,运用Canopy算法辅助确认K值范围和粗略中心点,借助Silhouette评价指标选择最优K值及其对应的聚类结果的方法,对传统K-Means算法进行改进,改进后的算法不需要手工输入K值和初始中心点。验证结果表明:改进的K-Means算法在聚类时,结果稳定准确,且当数据点数量较大时在迭代次数方面略优于传统算法。
作者:李幸刚; 张亚萍; 杨雨薇 期刊:《系统仿真学报》 2017年第11期
针对基于二维图像重建出的带有离群点和噪声的三维点云模型,提出了一种基于邻域扩展聚类的去噪算法。通过数据点之间的欧氏距离以及相邻位置关系的可传递性,搜索每个数据点的邻域,然后对所有点进行聚类划分,从而检测和滤除点云模型中的离群点。重点讨论了点云邻域扩展聚类的概念和方法、如何利用基于动态网格划分法快速搜索点的邻域。解决了点云模型周围孤立及密集分布的离群点检测和滤除问题,提高了传统k-近邻等算法对于点云数据...
作者:杨雨薇; 李幸刚; 张亚萍 期刊:《数据采集与处理》 2018年第05期
基于图像重建出的三维点云模型通常会包含许多离群点,这些离群点可能孤立存在或密集聚集在一起形成点簇,也可能分布在模型周围甚至附着在模型表面。通过一种检测方法很难有效滤除多种分布状态的离群点,因此,提出了综合的离群点监测算法。首先通过空间距离剔除与模型主体较远的离群点,并通过构建空间拓扑关系加快离群点搜索速度;然后利用边界匹配法,将较小点簇分别与最大点簇进行对比,滤除模型周围离群点簇;最后采用改进的K-means算...
作者:盛晓遐; 杨志民; 王甜甜 期刊:《计算机工程与应用》 2019年第10期
由于SVM(Support Vector Machine)在有离群点和不平衡数据的问题中分类性能相对较低,有研究者提出了一种面向不均衡分类的隶属度加权模糊支持向量机,只是文中的模糊隶属度并不能较好衡量样本点对确定最佳分划超平面所做的贡献大小。针对以上问题提出了密度峰(Density Peaks,DP)聚类的可信性加权模糊支持向量机。首先由DP聚类找到离群点后剔除。再根据点到由DEC(Different Error Costs)确定的超平面的距离,得到初始隶属度,并用改进...
作者:涂晓敏; 石鸿雁 期刊:《小型微型计算机系统》 2019年第01期
针对改进的局部稀疏系数(Enhanced Local Sparsity Coefficient,简称ELSC)算法在邻域查询过程中存在的不足,以及为了提高算法查准率,提出了一种基于方形邻域和裁剪因子的离群点检测算法.首先采用方形邻域,吸取网格算法的思想,以扩张的方形邻域代替网格分割,快速地排除聚类点,避免了网格算法的"维灾"问题.其次为了提高算法的精确度,引入裁剪因子的概念对候选离群点集进行精选.最后通过新定义的局部稀疏指数确定离群点.试验测试表明,...
作者:申彦博; 袁洁; 纪淑娟; 张纯金 期刊:《软件导刊》 2019年第08期
现有的增量聚类算法虽然解决了数据增量和类簇重叠问题,但在距离度量时没有考虑属性重要度不同,且普遍拥有较高的时间复杂度。针对以上问题,提出一种基于属性重要度的加权三支决策增量软聚类算法(W-TIOC-TWD算法),将属性重要度考虑到距离度量中,弥补了现有算法在聚类过程中将所有属性的重要程度视为相等的不足。该算法还引入离群点概念,降低了算法的时间复杂度。基于人工数据集和UCI数据集的实验结果表明,W-TIOC-TWD算法的聚类准确...