首页 期刊 科技通报 分布式数据库的文本数据去重备份方法研究 【正文】

分布式数据库的文本数据去重备份方法研究

作者:杨芳权 重庆人文科技学院计算机工程学院
分布式数据库   数据占用空间   文本数据   去重备份  

摘要:以分布式数据库文本数据为研究对象,提出基于分类特征的改进共享最近邻方法对数据实现去重备份处理。根据文本数据内容先划分到预设定类别中,利用特征词条到实数的映射即特征选择函数进行特征选择,按照一定准则从初始特征中选取具有强分类能力的特征,通过计算某训练集中各个词条特征选择函数参数值,获取参数值低于阈值的词条。利用哈希思想将文本空间相邻2个数据点实现指纹空间变换,转换空间后保持数据点相近,通过共享最近邻方法对相近指纹文本数据聚类,对聚类后数据进行迭代增删处理。实验证明,运用文中方法可对文本数据实现快速去重备份,有效解决数据占用空间问题。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅