摘要:以分布式数据库文本数据为研究对象,提出基于分类特征的改进共享最近邻方法对数据实现去重备份处理。根据文本数据内容先划分到预设定类别中,利用特征词条到实数的映射即特征选择函数进行特征选择,按照一定准则从初始特征中选取具有强分类能力的特征,通过计算某训练集中各个词条特征选择函数参数值,获取参数值低于阈值的词条。利用哈希思想将文本空间相邻2个数据点实现指纹空间变换,转换空间后保持数据点相近,通过共享最近邻方法对相近指纹文本数据聚类,对聚类后数据进行迭代增删处理。实验证明,运用文中方法可对文本数据实现快速去重备份,有效解决数据占用空间问题。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
热门期刊服务
分布式能源 有色金属·选矿部分 有色金属·矿山部分 有色金属·冶炼部分 自动化应用 广西植保 化学工程与装备 石油实验地质 人口战线 测控技术 中国野生植物资源 世界核心医学期刊文摘·眼科学分册相关文章
分布式能源考察报告