首页 期刊 计算机科学与探索 大数据上基于Hadoop的不一致数据检测与修复算法 【正文】

大数据上基于Hadoop的不一致数据检测与修复算法

作者:张安珍 门雪莹 王宏志 李建中 高宏 哈尔滨工业大学计算机科学与技术学院 哈尔滨150001
数据一致性   map   reduce   条件函数依赖   数据质量  

摘要:随着现代社会互联网的普及应用,产生的海量数据普遍存在质量问题。针对数据质量中不一致性问题进行研究,设计并实现了基于Hadoop并行平台的不一致数据检测与修复算法。采用数据依赖理论中的条件函数依赖,根据给定规则检测不一致数据集,对这些不一致数据求解修复方案,使得修复结果满足数据一致性要求,并给出修复结果的确定性概率。最后通过实验证明了该算法较已有的单机算法有更好的修复效果,当约束规则较少的情况下,算法执行时间呈线性增长。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅