首页 期刊 心智与计算 CS-XMLSim:一种XML文档分类的改进方法 【正文】

CS-XMLSim:一种XML文档分类的改进方法

作者:张娜; 张东站; 段江娇 厦门大学计算机科学系
欧氏距离   编辑距离   xml   谱聚类  

摘要:由于越来越多的结构化或半结构化的数据采用XML格式存储和交换,对XML数据的挖掘变得日益重要,其中对XML文档分类的研究越来越广泛。针对目前XML文档基于结构和内容的编辑距离分类算法的不足,本文在计算相似性度量时提出了一种新的改进方法CS-XMLSim方法,使得当XML文档结构相似而内容差异大时(即XML文档集由同一个DTD生成时)分类也有很高的准确率,并应用于k均值算法进行分类。CS-XMLSim方法在计算XML文档相似性时使用欧氏距离度量,其中计算内容相似性度量时运用谱聚类算法进行降维,对偏重于内容的XML文档分类时有更好的效果。实验结果表明,当XML文档结构相似内容差异大时,CS-XMLSim方法在提高分类准确率方面有了明显改善。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社