作者:陈植元; 杨海霞; 王先甲 期刊:《珞珈管理评论》 2018年第04期
文章旨在通过对管理科学与工程领域的科技文献(限中文文献)进行统计,运用数据挖掘方法,探讨该领域近十年研究主题的变化规律,从而揭示我国管理科学与工程学科研究发展趋势。以2006—2016年管理科学与工程领域12本期刊中21267篇中文科技文献为样本库,运用概率主题模型LDA对科技文献进行文本挖掘,生成得到20个研究主题,并将样本文献按照主题概率进行分类分析。得到主要结论:5个主题呈现上升趋势,其中主题“运营管理”、“调度交通”...
作者:马辉民; 李卫华 期刊:《管理学报》 2005年第Z1期
提出了一个易于实现,且可扩展性较好的Web文档聚类系统,包括用户界面和需求传递、Web文档收集、文档预处理和特征表示、聚类处理、Web文档聚类结果输出5个主要模块,并对文档预处理和特征表示、聚类处理做了重点分析.
作者:王勋; 刘君强 期刊:《情报学报》 2004年第02期
目前的搜索引擎在方便人们查询的同时也存在不足,由于它们并非面向某个特定用户服务,所以并不能反映用户的个性化需求,查询得到的信息往往还是有大量的冗余.为此本文提出了一种基于文档聚类的网络辅助浏览技术.首先给出了模糊概念图的模型来描述词语间的关系,然后将Web文档转化为矢量文档表示,利用基于K-Means聚类方法对矢量文档进行聚类,通过确认最终抽取出用户兴趣模式,从而辅助用户实现个性化搜索.
作者:刘远超; 王晓龙; 刘秉权; 钟彬彬 期刊:《计算机应用研究》 2005年第12期
利用训练文档集准确高效地挖掘隐藏的用户文本偏好和概念向量是文本信息过滤和多文档自动文摘等自然语言处理应用的关键技术之一.针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的文本偏好挖掘方法.其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约简,获得表示用户不同主题偏好的概念向量.实验结果表明该方法具有对用户的文本偏好刻画更加精确,对相关阈值变...
作者:雷景生; 伍庆清; 王平 期刊:《计算机工程》 2005年第01期
针对Web文档的特点,提出了一种多层向量空间模型,用来确定Web文档特征词的权重,然后给出了一种基于混合神经网络的文档聚类算法.实验结果表明,所提出的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的Web文档较完全和准确地聚成一类.
作者:吴欣明; 李春伟 期刊:《廊坊师范学院学报·社会科学版》 2004年第04期
文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现.文本挖掘主要处理半结构化、无结构化和字符型数据.首先介绍了文本挖掘的概念,然后分析了文本挖掘的处理过程和关键技术,最后对文本挖掘进行了展望.
作者:杨海霞; 高宝俊; 孙含林 期刊:《数据分析与知识发现》 2016年第11期
【目的】运用文本挖掘技术自动从海量科技文献中提取研究主题并探测其研究趋势。【方法】以《中文核心期刊要目总览(2014年版))-“TP自动化技术、计算机技术”栏目前10种期刊刊载的计算机科学类(ComputerScience)文献为研究对象,借助LDA主题模型,考虑科技文献的发表时间信息,挖掘出典型话题,并根据主题强度分析主题的演化趋势。【结果】18个研究话题中有7个主题强度上升的主题和6个主题强度下降的主题。【局限】仅分析了...
作者:孙辉; 陈晓云; 马志新 期刊:《清华大学学报·自然科学版》 2005年第S1期
Web信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息.为此该文提出了一种基于语句-词条矩阵的聚簇式动态增长聚类算法.该平面分割的算法的整个工作过程有3个步骤:预处理Web数据,进行文本摘取和过滤处理;形成每个文档的语句-词条矩阵,构成若干文档的矩阵集合;通过聚簇式动态增长聚类算法,对相似文档进行聚类.对该算法进行了实验分析.结果表明,该算法在保持文档语义联系的同时,其对文档的聚类有...
作者:杨海霞; 高宝俊; 孙含林 期刊:《现代图书情报技术》 2016年第11期
【目的】运用文本挖掘技术自动从海量科技文献中提取研究主题并探测其研究趋势。【方法】以《中文核心期刊要目总览(2014年版))-“TP自动化技术、计算机技术”栏目前10种期刊刊载的计算机科学类(ComputerScience)文献为研究对象,借助LDA主题模型,考虑科技文献的发表时间信息,挖掘出典型话题,并根据主题强度分析主题的演化趋势。【结果】18个研究话题中有7个主题强度上升的主题和6个主题强度下降的主题。【局限】仅分析了...
作者:宋江春; 沈钧毅 期刊:《情报学报》 2006年第04期
提出了一个新的基于双向近邻技术的多层文档聚类算法.使用新的文档特征抽取方法构造了文档的主题和关键字特征向量.首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向.利用改进后的方法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类.由于使用了两层聚类方法,使算法的效率和精度都大大提高.最后对算法的有效性、可伸缩性和时间...
作者:王子兴; 冯志勇 期刊:《微型电脑应用》 2007年第08期
文章介绍了Web文档聚类中普遍使用的基于分割的k—means算法,分析了k—means算法所使用的向量空间模型和基于距离的相似性度量的局限性,从而提出了一种改善向量空间模型以及相似性度量的方法。实验表明,改进后的k—means算法不仅保留了原k—means算法效率高的优点,而且具有更高的准确性。
作者:杨占华; 杨燕 期刊:《计算机应用研究》 2006年第05期
提出了一种把自组织特征映射SOM和K-means算法结合的聚类组合算法。先用SOM对文档聚类,然后以SOM的输出权值初始化K-means的聚类中心,再用K—means算法对文档聚类。实验结果表明,该聚类组合算法能改进文档聚类的性能。
作者:张辉; 谢科; 庞斌; 吴辉 期刊:《北京航空航天大学学报》 2007年第06期
为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的Web文档,与向量空间模型方法不同,采用基于关键特征的聚类算法(KFC).首先从搜索引擎返回结果的关键词里选择重要的词作为关键特征,然后通过分析特征间的关系对特征聚类,最后基于特征聚类结果实现文档的聚类.通过对实验结果的测试表明了算法的有效性.
作者:白曦; 吕晓枫; 孙吉贵 期刊:《计算机工程与应用》 2006年第23期
为了准确高效地对网上获取的文档进行聚类,在布尔逻辑模型的基础上提出了一种改进的最优相似度搜索方法。该方法将模拟退火的思想融入到遗传算法当中,通过“撒种”操作将模拟退火算法的局部搜索能力以及遗传算法的全局搜索能力结合起来。实验表明,使用谊混合算法对文档进行聚类,不仅搜索效率得到了提高,而且准确度优于使用传统的遗传算法。
作者:雷景生; 马军; 靳婷 期刊:《计算机研究与发展》 2006年第10期
给出了一种多层向量空间模型,该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段,按照不同位置的文本段确定相应的索引项权重.然后提出了一种简明而有效的基于分级神经网络的模糊聚类算法.与现有方法不同,该模糊聚类方法采用自组织神经网络和模糊聚类网络两部分组成的3层神经网络来实现.首先采用自组织神经网络从原始数据产生一个初始聚类结果,然后运用FCM方法对初始聚类的数目进行优化.实验结果表明,提出的...
作者:韩建福; 卢苇 期刊:《中国科技信息》 2006年第23期
随着互联网的迅猛发展,信息爆炸式增长,产生了信息过载,而在相当程度上,搜索是面临信息过载的唯一选择。但是,现在的搜索引擎缺陷也很明显:一是搜索结果数量庞大;二是搜索结果的线性排列。该文提出采用文档聚类的方法组织搜索引擎的结果,从一定程度上解决了上面的问题。
作者:刘远超; 王晓龙; 刘秉权; 钟彬彬 期刊:《电子与信息学报》 2006年第04期
信息检索/搜索引擎技术的快速发展使得信息的查全率有较大提高,而查准率以及人们获取信息的效率改善却不明显。文本聚类和多文档关键词的自动生成技术将有助于解决这一问题。其基本思想是对检索到的部分文档进行聚类处理,并对每类文档自动生成关键词,从而帮助用户判断各个类别的文档和检索需求是否相关。该文提出文档相关度和类别相关度的概念,并利用词频信息以及知网(HOVNET)中词的概念计算模型计算类别相关度,将其作为聚...
作者:王成勇; 杜庆伟; 孙静; 孙振 期刊:《计算机工程与应用》 2016年第12期
XML文档聚类在众多数据应用领域都具有重要作用.基于特征偏好的XML文档聚类算法是对XML文档进行特征选择,将XML 文档描述为n 维特征向量,再结合CFP(Clustering with Feature order Preference)算法,根据特征偏好为其赋予权重,每次迭代聚类过程中进行权重的更新.实验结果表明当CFP 算法中的特征偏好权重和XML文档向量化时所用的层次权重设定相结合时,可弥补XML 文档向量化时的弊端,提高了XML 文档聚类的精度.
作者:刘春双 张志强 谢晓芹 期刊:《哈尔滨工程大学学报》 2013年第04期
主流信息检索系统都是按照与用户查询的相关性大小对返回结果进行排序,结果之间相互孤立缺乏整体性,当用户的查询需求比较模糊且涵盖多个子主题时,冗余性就会很大,尤其是排序靠前的结果。为了使用户获得完整的相关信息,采用一种基于子主题提取的文档集合生成算法聚类相关检索结果,引入一个新概念“并集度”,并借鉴目前已有的有关新颖性的研究结果,最后利用相关度、并集度和新颖度对结果集重新排序。实验结果表明在进行算法...
作者:魏建香 孙越泓 苏新宁 期刊:《情报学报》 2010年第03期
为了解决文献自动分类问题,提出了一种基于粒子群优化算法(PSO)的文档聚类算法并根据各种参数的变化策略进行了分析与比较。由于粒子运动的范围受到粒子最大速度V_(max)的影响,本文通过改变V_(max)的变化类型进行仿真比较,当V_(max)为凹函数,PSO算法具有较好的收敛性。同时,对惯性权重和学习系数进行了研究,提出了相应的变化策略:惯性权重线性递减,自身认知系数线性递增而社会认知系数线性递减。给出了PSO聚类算法的详细...