作者:金义富; 邓明 期刊:《岭南师范学院学报》 2007年第06期
在数据空间中不可避免地存在着一些严重偏离整体样本集合的其它观测值,这些离群数据对数据挖掘与分析结果具有重要影响.通过对各种基于统计算法的总结与比较,按一元到多元的探索性离群分析思路,设计了一般分布下的Grubbs离群检测法和基于似然的混合模型离群点检测方法,并对多维数据的统计检测技术进行了讨论.结果表明,在离群检测与分析中恰当地利用统计方法在低维数据中的有效性进行探索性数据分析是可行的.
针对传统的光纤网络离群恶意数据检测方法存在的检测准确性低、检测时间较长的问题,提出一种基于LODCD算法的离群恶意数据自动检测方法,为了解析离群恶意数据信号,构建了离群数据传输模型,采用经验模态分解算法对传输过程中的离群恶意数据进行解析,建立了离群恶意数据信号分析模型;将离群恶意数据分析模型划分成多个窄带信号,得到离群恶意数据包络特征,通过计算恶意数据包络特征在各个通信信道的干扰信号比提取出离群恶意数据特征;...
对复杂网络数据信息传输的稳定性检测,能够有效保障网络的稳定运行。对信息传输稳定性的检测,需要获取各个数据对象与其邻域的加权距离,计算出每个数据对象的离群度量值,完成对数据信息传输稳定性的检测。传统方法计算出数据集的属性个数,获取每条数据记录的离群度,但忽略了计算出每个数据对象的离群度量值.导致检测精度偏低。提出基于密度的复杂网络数据信息传输稳定性检测方法。将网络整体的数据分布状态划分为不同类型的...
作者:文琪; 彭宏 期刊:《电子科技大学学报》 2005年第04期
针对时序数据进行离群数据挖掘方法的研究.通过对时序数据进行离散小波变换,将其从时域空间变换到频域空间,使时序数据映射为多维空间的点.该方法具有多尺度、时移不变性等特点,经离群时间序列进行离散小波变换后,不仅具有良好的保距性又达到降低维数目的.然后提出一种基于距离的离群时序数据挖掘算法.仿真试验表明了该方法的有效性.
作者:张彦霞; 赵永恒 期刊:《天文学进展》 2004年第01期
综述了离群数据(outliers)探测是数据挖掘和知识发现的一项重要任务及其在天文学中兴起的必然性。简要介绍了离群数据的定义、特点、产生原因及影响,着重阐述了探测一维离群数据和多维离群数据的方法,并且与一些聚类算法作了对比。每一种算法各有优劣,天文学家应根据天文数据的特点,探讨出适合天文数据特点的离群数据探测方法,以发现一些不同寻常的、稀有的,甚至新类型的天体和天文现象。
作者:张光 期刊:《自动化与仪器仪表》 2017年第08期
电子商务推荐系统在推荐的精度和实时性方面,往往存在冲突,即为了提高实时性,会造成推荐精度不高;为提高推荐的整体质量,造成实时性不够准确。对此,找到推荐精度和实时性之间的契合点,是提高系统推荐的重点。本文结合离群数据的特点,提出一种基于改进K均值和PSO的混合算法。针对传统K均值算法在对离群数据挖掘中存在不足的基础上,引入PSO算法,并对欧氏距离、学习因子聚类流程等进行改进,然后对聚类推荐算法流程进行改进...
作者:杨海峰; 蔡江辉; 张继福; 罗阿理; 赵旭俊; 杨雨晴 期刊:《光谱学与光谱分析》 2017年第04期
LAMOST巡天已获取超过100 000条星系光谱,为探索珍贵、稀有的天体从而完善现有科学理论提供了重要的数据条件。研究采用基于相关子空间的离群挖掘方法,从LAMOST DR3星系光谱数据中获得的离群数据挖掘结果中,针对呈现出多种稀有特征的光谱J140242.45+092049.8进行了深入分析。首先利用特征光谱线进行红移测量并交叉SDSS同源光谱提供的红移信息,测量并证认了该光谱的两套红移系统:吸收线系统z1=0.020 95、发射线系统z2=0.069 5。从...
作者:林俐; 潘险险; 张凌云; 赵双 期刊:《中国电机工程学报》 2016年第20期
风电机组在实际运行时,受尾流效应和迟滞效应等因素的影响,场内机组运行状态并不相同,风电场采用传统的单机表征模型可能会产生较大误差。该文基于风电场实测运行数据,以风电机组具有相近运行点为机群划分原则,提出一种基于免疫离群数据和敏感初始中心的K-means算法的风电场机群划分方法。首先,针对风电场实测运行数据含有离群数据的问题,基于实测样本分布密度分析,对实测数据进行离群数据处理,免疫离群数据的干扰。其次,传统K-mea...
作者:刘金生; 刘金辉; 周焕银 期刊:《东华理工大学学报·社会科学版》 2007年第04期
随着计算机技术的迅速发展,计算机在过程控制中起着越来越重要的作用,在集散控制系统中,上位机通过PCU(Process Control Unit)传送来的数据进行分析处理而后对PCU实现参数整定、报警与管理。因此这一领域的数据挖掘方法研究具有十分重要的意义。文章将根据这一领域的特殊情况,提出一种基于变网格的聚类分析算法分析过程数据库中的离群数据,从而实现系统的预测报警功能。
作者:张继福; 蔡江辉 期刊:《光谱学与光谱分析》 2007年第03期
在宇宙中寻求未知天体是人类探索宇宙奥妙所追求的目标之一,离群数据挖掘是发现未知天体光谱数据的一种有效途径。文章首先以VC++和Oracle9i为开发工具,设计与实现了面向LAMOST的恒星光谱离群数据挖掘系统,并给出了其软件体系结构和模块功能。其次,对基于中值滤波器的恒星光谱数据预处理、基于距离的恒星光谱数据聚类、基于距离支持度的恒星光谱数据离群数据挖掘、基于主分量分析法PCA的恒星光谱数据离群数据的三维可视化等...
作者:徐雪松; 张谓; 宋东明; 张宏; 刘凤玉 期刊:《计算机科学》 2007年第09期
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群聚类算法,该算法将核方法与PP主成分变换结合于离群聚类算法中,采用基于核的PP主成分变换进行数据维数消减。通过该数据变换矩阵得到相应的非线性向量,并为每个向量分配一个动态权值,在优化经典的FCM模糊聚类的目标优化迭代函数基础上,最终得到各个数据的权值,根据权值的大小标识出数据集中的离群点,理论上证明了...
作者:胡泳; 郝亚洲 期刊:《IT经理世界》 2015年第12期
史蒂文·约翰逊(steven Johnson)在《伟大创意的诞生——创新自然史》写到,"绝大多数的伟大创意最初都是以一种不完整、不全面的形式出现的。它们隐藏着某种深奥的种子,但缺乏一个关键元素,让灵感转变成真正有威力的东西。"灵感是创新之根本,若让灵感转变为创新方案,
作者:徐雪松 张谞 宋东明 张宏 刘凤玉 期刊:《中国工程科学》 2008年第09期
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对所得数据对象每个投影分量逐个判断数据点是否是离群点,通过实验证明该算法不仅可用于线性可分数据集的离群点检测,而且可用于线性不可分数据集的离群点检测,表明了算法的优越性。
作者:石岩 刘爱琴 张继福 期刊:《太原科技大学学报》 2013年第03期
针对高维数据集中的离群点挖掘任务,给出了一种基于基尼指标和属性相关性分析的高维数据离群点挖掘算法。该算法首先采用属性相关性分析方法,删除高维数据集中的冗余属性,缩减了数据集的大小;其次采用基尼指标作为离群度量因子,从缩减后的数据集中,挖掘出不同离群程度的数据点;最后,实验采用天体光谱数据作为实验数据集,经实验验证,该算法对高维数据集中离群点的挖掘算法是有效的和可行的,其效率得到了明显的提高。
在综述国内外主题演化研究现状的基础上,提出将离群数据概念引入到主题演化规律分析中,详细阐述了基于离群文献的主题演化动力机制分析,最终探索了主题演化的状态变化情况。从而更加准确地定量分析不同主题在整个学科领域主题演化过程中的作用,并展示出学科主题演化的趋势,全面把握学科主题状况,促进主题全面发展。
作者:张贺 蔡江辉 张继福 乔衎 期刊:《智能系统学报》 2010年第02期
离群数据挖掘是为了找出隐含在海量数据中相对稀疏而孤立的异常数据模式,但传统的离群数据挖掘方法受人为因素影响较大.通过引人基于信息熵的离群度量因子,给出一种离群数据挖掘新算法.该算法先利用信息熵计算每个数据对象的离群度量因子,然后通过离群度量因子来衡量每个对象的离群程度,进而检测离群数据,有效地消除了人为主观因素对离群检测的影响,并能很好地解释离群点的含义.最后,采用UCI和恒星光谱数据作为实验数据...
作者:徐雪松 张宏 刘凤玉 期刊:《仪器仪表学报》 2008年第09期
局部线性嵌入算法(locally linear embedding,LLE)是一种流形降维方法,在高维稀疏数据空间中,针对LLE不适合稀疏采样和欧氏距离公式的缺陷,研究该算法的扩展,引入核函数,并将样本映射到高维特征空间,核映射改善了样本的空间分布,改进的LLE方法在适当选取近邻点个数情况下,可得到良好的效果。对从高维采样数据中恢复得到低维数据集,通过本文提出的离群数据假设,并结合本文给出的离群聚类方法对所得低维数据是否是离群...
作者:王柯柯 崔贯勋 倪伟 苟光磊 期刊:《重庆邮电大学学报·自然科学版》 2010年第05期
提出基于单元的快速的大数据集离群数据挖掘算法,用聚簇技术对数据进行预处理,然后将数据放入合适的空间单元并对非空单元使用维单元树(cell dimension tree,CD—tree)进行索引,数据集中大部分位于高密度区且与离群数据无关的数据将会被过滤掉,从而避免了大量不必要的计算。实验表明,该算法能快速准确地从大数据集中挖掘出离群数据,并提高离群数据的检测速度。
作者:史东辉 期刊:《计算机工程与应用》 2009年第17期
对统计数据的散度情况,即数据变异指标,进行了说明,变异指标可以使我们对数据的总体特征有更进一步的了解,进而对数据的分布情况有所了解,变异指标对发现数据中的离群数据有一定的作用。作者使用变异指标对基于偏差的离群数据的发现方法进行改进,改进后的算法适合于多维数值数据。
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对从高维采样数据中恢复得到低维数据集,通过本文提出的离群数据假设,并结合本文给出的离群聚类方法对所得数据对象投影分量是否是离群数据进行判别。仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。与此...