发表之家网站,学术咨询:400-888-7501 订阅咨询:400-888-7502 股权代码 102064

密度峰值聚类算法综述

陈叶旺; 申莲莲; 钟才明; 王田; 陈谊; 杜吉祥 华侨大学计算机科学与技术学院; 福建厦门361021; 食品安全大数据技术北京市重点实验室(北京工商大学); 北京100048; 江苏省计算机信息处理技术重点实验室(苏州大学); 江苏苏州215006; 福建省大数据智能与安全重点实验室(华侨大学); 福建厦门361021; 宁波大学信息学院; 浙江宁波315211
  • 聚类算法  
  • 密度峰值  
  • 大数据  
  • 数据挖掘  
  • 密度聚类  

密度峰值聚类(density peak,DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理:首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望.

  • 前言

    作者:舒继武; 王意洁 期刊:《计算机研究与发展》 2020年第02期

    近年来,随着国家和社会信息化发展的不断加速,对信息存储提出了越来越高的要求.一方面,大数据时代,数据存储的规模和处理需求越来越高,亟需新型存储系统和技术以提供更高的性能和更好的可扩展性.另一方面,由于各种人工智能系统及相关技术的出现,现有的存储技术和系统难以满足上层系统和技术的需求.因此,存储系统结构技术研究面临诸多新的机遇和...

  • 基于冲突检测的高吞吐NVM存储系统

    作者:蔡涛; 王杰; 牛德姣; 刘佩瑶; 陈福丽 期刊:《计算机研究与发展》 2020年第02期

    非易失性存储器(non-volatile memory,NVM)是解决计算机系统存储墙问题的有效手段,但现有的I/O栈缺乏相应的适应和优化机制,特别是基于文件系统的锁机制是影响NVM存储系统性能的重要因素.将存储系统访问请求的管理嵌入到存储设备中,利用NVM存储设备自主管理访问请求,使用基于冲突检测的方法代替基于文件系统的现有锁机制,提高操作系统执行访问请...

  • 一种持久性内存文件系统数据页的混合管理机制

    作者:陈游旻; 朱博弘; 韩银俊; 屠要峰; 舒继武 期刊:《计算机研究与发展》 2020年第02期

    英特尔于2019年4月正式发布基于3D-Xpoint技术的傲腾持久性内存(Optane DC persistent memory),这为构建高效的持久性内存存储系统提供了新的机遇.然而,现有的存储系统软件并不能很好地利用其字节寻址特性,持久性内存性能很难充分发挥.提出一种文件系统数据页的混合管理机制HDPM,通过选择性使用写时复制机制和日志结构管理文件数据,充分发挥持久...

  • 基于“采集—预测—迁移—反馈”机制的主动容错技术

    作者:杨洪章; 杨雅辉; 屠要峰; 孙广宇; 吴中海 期刊:《计算机研究与发展》 2020年第02期

    硬盘故障是数据中心最主要的故障,严重影响了可靠性.传统的数据容错技术一般都是通过增加数据冗余来实现的,存在缺陷.主动容错技术通过预测硬盘故障提前将数据迁移,成为研究热点.现有技术大多研究硬盘故障预测,缺乏采集、迁移、反馈的研究,难以商用.提出“采集—预测—迁移—反馈”全流程主动容错机制,包括:分时硬盘信息采集方法、滑动窗口记录...

  • 基于地理空间大数据的高效索引与检索算法

    作者:赵慧慧; 赵凡; 陈仁海; 冯志勇 期刊:《计算机研究与发展》 2020年第02期

    近年来,随着智能目标识别、电子传感器、协同控制以及计算机网络等先进技术的快速发展,智能交通系统实现了质的飞越,现代智能交通系统可以实现车、路、云端于一体的智能交通运输管理平台.但智能交通系统依赖于每天产生的大量的2维地理空间信息数据,因此,如何对大规模的地理空间数据进行高效的存储和查询对智能交通系统未来的普及和发展具有重要...

  • 机器学习的隐私保护研究综述

    作者:刘俊旭; 孟小峰 期刊:《计算机研究与发展》 2020年第02期

    大规模数据收集大幅提升了机器学习算法的性能,实现了经济效益和社会效益的共赢,但也令个人隐私保护面临更大的风险与挑战.机器学习的训练模式主要分为集中学习和联邦学习2类,前者在模型训练前需统一收集各方数据,尽管易于部署,却存在极大数据隐私与安全隐患;后者实现了将各方数据保留在本地的同时进行模型训练,但该方式目前正处于研究的起步阶...

  • 密度峰值聚类算法综述

    作者:陈叶旺; 申莲莲; 钟才明; 王田; 陈谊; 杜吉祥 期刊:《计算机研究与发展》 2020年第02期

    密度峰值聚类(density peak,DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互...

  • 机器学习化数据库系统研究综述

    作者:孟小峰; 马超红; 杨晨 期刊:《计算机研究与发展》 2019年第09期

    数据库系统经过近50年的发展,虽然已经普遍商用,但随着大数据时代的到来,数据库系统在2个方面面临挑战.首先数据量持续增大期望单个查询任务具有更快的处理速度;其次查询负载的快速变化及其多样性使得基于DBA经验的数据库配置和查询优化偏好不能实时地调整为最佳运行时状态.而数据库系统的性能优化进入瓶颈期,优化空间收窄,进一步优化只能依托新...

  • 基于生成式对抗网络的结构化数据表生成模型

    作者:宋珂慧; 张莹; 张江伟; 袁晓洁 期刊:《计算机研究与发展》 2019年第09期

    在机器学习和数据库等领域,高质量数据集的合成一直以来是一个非常重要且充满挑战性的问题.其中,合成的高质量数据集可用来改善模型,尤其是深度学习模型的训练过程.一个健壮的模型训练过程需要大量已标注的数据集,获取这些数据集的一种方法是通过领域专家的手动标注,这种方法不仅代价大还容易出错,因此由模型自动合成高质量数据集的方法更为合理...

  • 结合GAN与BiLSTM-Attention-CRF的领域命名实体识别

    作者:张晗; 郭渊博; 李涛 期刊:《计算机研究与发展》 2019年第09期

    领域内命名实体识别通常面临领域内标注数据缺乏以及由于实体名称多样性导致的同一文档中实体标注不一致等问题.针对以上问题,利用生成式对抗网络(generative adversarial network, GAN)可以生成数据的特点,将生成式对抗网络与BiLSTM-Attention-CRF模型相结合.首先以BiLSTM-Attention作为生成式对抗网络的生成器模型,以CNN作为判别器模型,从众包...

  • 一种基于局部中心性的网络关键节点识别算法

    作者:郑文萍; 吴志康; 杨贵 期刊:《计算机研究与发展》 2019年第09期

    关键节点识别已经成为分析与理解复杂网络特性、结构、功能的有效方式.提出了一种基于节点中心性的关键节点识别算法框架(greedy algorithm for critical node problem, GCNP),根据某种中心性指标选择一个网络的初始点覆盖集;从网络中删除该点覆盖集,迭代选择点覆盖集中使原网络连通节点对增加最小的节点向原网络回添,直至点覆盖集中节点满足用...

  • 基于HeteSim的疾病关联长非编码RNA预测

    作者:马毅; 郭杏莉; 孙宇彤; 苑倩倩; 任阳; 段然; 高琳 期刊:《计算机研究与发展》 2019年第09期

    越来越多的研究表明,长非编码 RNA(long non-coding RNA, lncRNA)在许多生物过程中具有重要的功能,而这些长非编码 RNA 的变异或功能失调会导致一些复杂疾病的发生.通过生物信息学方法预测潜在的长非编码 RNA-疾病关联关系,对于致病机理的探索以及疾病诊断、治疗、预后和预防都具有重要的意义.基于疾病基因关联关系的异质信息网络,研究者使用了...

  • 基于动态规划的双序列比对算法构件设计与实现

    作者:石海鹤; 周卫星 期刊:《计算机研究与发展》 2019年第09期

    双序列比对算法是生物信息学中的一个关键算法,广泛应用于序列相似性分析以及基因组序列数据库搜索.现有研究主要针对特定应用问题优化和使用相对应比对算法,缺乏高抽象层算法框架的细致研究,在一定程度上导致了序列比对算法的冗余性以及人为选择算法可能造成的误差等问题,也使得人们难以有效地了解算法结构.通过深入分析基于动态规划的双序列比...

  • 微博热门话题关联商品品类挖掘

    作者:左笑晨; 窦志成; 黄真; 卢淑祺; 文继荣 期刊:《计算机研究与发展》 2019年第09期

    微博是目前人们广泛使用的在线分享和交流的社交媒体平台之一.某些被广泛关注的话题因为在微博中被大量网友转发、评论和搜索而形成微博热门话题,而这些热门话题的广泛传播则可能进一步刺激和推动用户的线下行为.作为其中的典型代表,某些微博热门话题可能会刺激电商平台中和该话题相关的商品的热销.提前挖掘出与微博热门话题相关联的商品品类,可...

  • 一种基于博弈论的时序网络链路预测方法

    作者:刘留; 王煜尧; 倪琦瑄; 曹杰; 卜湛 期刊:《计算机研究与发展》 2019年第09期

    链路预测是复杂网络分析领域的一项重要研究课题,可被应用于许多实际应用场景,如推荐系统、信息检索和市场分析等.不同于传统的链路预测问题,针对有时间窗口的时序链路集合,需预测未来任意时刻链路的存在情况,即探究时序网络的演化机制.为解决这一问题,结合生存分析和博弈论,提出一种有效的半监督学习框架.首先,定义一个ε-邻接网络序列模型,并利...

计算机研究与发展

统计源期刊 审稿

关注 26人评论|0人关注
相关期刊
  • 计算机工程
    CSCD核心期刊 1-3个月审稿
    华东计算技术研究所;上海市计算机学会
  • 计算机工程与设计
    统计源期刊 1-3个月审稿
    中国航天科工集团第二研究院706所
  • 中国电子商务
    国家级期刊 1个月内审稿
    中国电子企业协会;中国电子器材总公司
  • 中国电子商情
    国家级期刊 1个月内审稿
    中国电子器材总公司
  • 中国管理信息化
    省级期刊 1个月内审稿
    吉林科学技术出版社有限责任公司
  • 电脑与电信
    省级期刊 1个月内审稿
    广东省科技合作研究促进中心
  • 信息技术与信息化
    省级期刊 1个月内审稿
    山东电子学会
  • 电子商务
    国家级期刊 1个月内审稿
    中国电子学会;中国信息产业商会;中电新一代(北京)信息技术研究院
  • 消费电子
    国家级期刊 1-3个月审稿
    中国电子商会
  • 激光与光电子学进展
    北大核心期刊 1-3个月审稿
    中国科学院上海光精密机械研究所
  • 电子科技
    国家级期刊 1-3个月审稿
    西安电子科技大学
  • 电子测试
    省级期刊 1-3个月审稿
    北京自动测试技术研究所
  • 山西电子技术
    省级期刊 1个月内审稿
    山西省电子工业科学研究所;山西省电子学会
  • 中国信息技术教育
    国家级期刊 1个月内审稿
    教育部中央电化教育馆;北京中图联文化教育开发中心
  • 信息安全与技术
    国家级期刊 1-3个月审稿
    中国电子信息产业发展研究院
服务与支付
在线投稿 发表咨询 加急见刊 杂志订阅 返回首页