首页 期刊 清华大学学报·自然科学版 基于语句-词条矩阵的聚簇式动态增长聚类算法 【正文】

基于语句-词条矩阵的聚簇式动态增长聚类算法

作者:孙辉; 陈晓云; 马志新 兰州大学; 信息科学与工程学院; 兰州; 730000
文档聚类   词频和反向词频   语句词条矩阵   文档矩阵集合  

摘要:Web信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息.为此该文提出了一种基于语句-词条矩阵的聚簇式动态增长聚类算法.该平面分割的算法的整个工作过程有3个步骤:预处理Web数据,进行文本摘取和过滤处理;形成每个文档的语句-词条矩阵,构成若干文档的矩阵集合;通过聚簇式动态增长聚类算法,对相似文档进行聚类.对该算法进行了实验分析.结果表明,该算法在保持文档语义联系的同时,其对文档的聚类有较高的准确性.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅