作者:祁丹蕊; 宋韶旭; 王建民 期刊:《软件学报》 2019年第03期
由于数据缺失,数据库用户通常无法获得查询结果中的预期答案.它被称为“Why-not问题”,即“为什么预期的元组不会出现在结果中”.现有的方法通过列举可能的元组值来解释Why-not问题.枚举所给出解释的数量往往太大,无法由用户探索.完整性约束,如函数依赖,被用来排除不合格的解释.然而,许多属性在简化后解释中仅仅表示为变量,用户可能仍然无法理解.由于数据稀疏性,许多不合理的解释也会被推荐给用户.提出通过研究元组间两两比较关系,...
作者:谭黎龙; 万定生; 钱振兴 期刊:《信息技术》 2018年第07期
利用条件函数依赖能有效地对数据库进行检测和修复。但是面对大量且复杂的数据时,传统的条件函数依赖算法存在检测和修复速率慢,查找效率低等问题。以水利普查数据为研究对象,利用其复杂且庞大的特点,在原有的算法上引入一致集简化计算差集的过程,并根据深度优先的搜索策略搜索属性集的最小覆盖。改进后的算法相比传统的挖掘算法在保证搜索质量的前提下加快了搜索速率,并提高了复杂数据的挖掘效率。
作者:王欢; 张云峰; 张艳 期刊:《计算机科学》 2018年第03期
数据一致性是大数据质量管理研究的一个重要内容。条件函数依赖(CFDs)是维护数据一致性的有效技术手段。然而,在修复过程中选择不同的CFDs修复顺序,会影响修复的准确性和效率。因此,如何选取一个正确且合理的修复顺序对数据修复至关重要。针对该问题,提出一种基于CFDs规则的快速判定修复序列的计算方法。首先,设计了一种数据修复框架。然后,利用CFDs之间的关联关系,提出了修复序列图的概念,以用于CFDs修复顺序的计算。一方面,可...
作者:杨辉; 于守健; 陈少总 期刊:《计算机系统应用》 2017年第04期
基于编辑规则和主数据的数据修复技术能自动地、确切地修复不一致数据,但目前编辑规则的获取主要依靠专业人员的定义.为了实现数据清洗全自动化,数据规则的挖掘技术近年来成为研究热点,针对条件函数依赖提出的挖掘算法主要有CFDMiner,CTANE,FastCFD.在此基础上,扩展条件函数依赖(CFD)的定义,在编辑规则的定义下提出了一种基于输入样本和主数据的编辑规则挖掘算法,主要思路是从输入样本中挖掘出CFD,然后根据输入样本与主数据在属...
作者:程录庆 期刊:《洛阳师范学院学报》 2011年第11期
在信息系统的范畴内,数据约束不同于业务流程和数据流程,数据约束是数据应遵循的语义限制,反映应用领域的信息规则,对数据约束的形式化表达是设计和管理数据库系统的基本任务.为了探讨数据约束的形式化表达问题,对条件函数依赖和传统函数依赖这两种数据约束表达方法作了比较研究.通过比较分析两者的表达能力、表达形式、对数据约束规律的揭示以及应用范围,指出了数据约束表达的三个层次.研究对数据库系统的设计与管理有理论参考价...
提高数据质量对于企业管理信息系统意义重大,数据质量的提高涉及数据库的设计、数据的输入、数据的维护及数据清洗全过程。比较了条件函数依赖CFD与传统函数依赖FD;基于条件函数依赖框架对业务规则及领域知识的表达作了初步研究,对脏数据的识别和清洗提供可行的方法和思路。
作者:陈伟鹤 陈霖 期刊:《计算机应用研究》 2012年第10期
数据拥有者的数据中如果包含条件函数依赖会导致数据的隐私受到攻击,由条件函数依赖产生的属性间的关联会带来潜在的隐私泄露问题。针对现有的隐私保护方法均无法保护包含条件函数依赖的数据的隐私,形式化地定义了基于条件函数依赖的隐私攻击,提出了隐私保护模型l-deduction来对包含条件函数依赖的数据进行隐私保护;并设计了相应的匿名算法来实现l-deduction模型。理论分析和实验结果表明,该方法既能保护包含条件函数依赖的数据的...
作者:耿寅融 刘波 期刊:《计算机工程与应用》 2012年第03期
条件函数依赖是函数依赖在语义上的扩充,可以应用于数据清洗工作,在数据库一致性的修复上应用广泛。讨论了条件函数依赖的相关语义规则,重点研究了基于条件函数依赖对违反数据库一致性元组的检测工作,并引入置信度评价机制,对相关的检测规则进行了改进。改进后的检测方法在基于多个函数依赖的检测中显示出了优越性,使得检测工作更为精简,检测标准更加明确。
作者:林印华 张春海 刘洁 期刊:《计算机科学》 2012年第S3期
为了有效地清洗数据,此前已经提出了很多的完整性约束规则,例如条件函数依赖、条件包含依赖。这些约束规则虽然可以侦测出错误的存在,但是不能有效地指导用户纠正错误。实际上,基于约束规则的数据修复可能最终得不到确定性的修复结果,相反会引入新的错误,因此很大程度上降低了数据修复的效率。针对以上不足,提出了一种有效的数据清洗框架:首先基于Editing Rules和Master Data对数据进行清洗操作,最终得到确定性的修复;然后依据条件...
作者:李丁月 刘建勋 翟海军 期刊:《计算机工程与科学》 2013年第08期
数据库频繁更新会导致满足条件的条件函数依赖(CFDs)发生变化,为获取准确的条件函数依赖,可以在更新后的数据库上重新执行发现过程,但这种方法会导致大量时间都浪费在对原始数据集的重复处理上。针对这种情况,在CFINDER算法基础上,提出了一个增量发现条件函数依赖的算法CFUP。当数据库中增加新数据集时,CFUP在已有的CFDs的基础上,去掉不满足条件的CFDs,发现满足条件的新CFDs。实验表明,该算法能有效地进行条件函数依赖...
作者:郑婷 段富 期刊:《计算机应用研究》 2014年第12期
针对XML函数依赖(XFD)不能充分检测XML局部数据源语义上的数据不一致,借鉴关系数据库中条件函数依赖(CFD)的概念,并根据XML自身结构和约束特性,提出了基于内容感知发现(CAD)XML条件函数依赖(XCFD),CAD使用隐藏在数据值中的内容发现局部XML文档的XCFDs,检测异构数据源中数据一致性,提高数据的质量,并给出了详细的算法,同时引入修剪规则集减少搜索点阵和候选的XCFD的数量,提高算法的效率,使得XCFD无冗余、最小化。通过案例研...
作者:刘波 周健昌 期刊:《系统工程与电子技术》 2015年第11期
条件函数依赖是对传统函数依赖的扩展,它通过引入条件模式,使其语义比函数依赖更精确、表达能力更强。然而,条件函数依赖的计算需要消耗较多的时间,为了提高条件函数依赖挖掘的效率,研究了条件函数依赖增量维护方法。针对数据集增加、删除、修改3种情况分别分析了条件函数依赖集变化规律,提出了条件函数依赖的增量计算算法,从而能够在数据库变化情况下,高效、动态地维护条件函数依赖。同时,在理论上对算法中关键步骤的正...
作者:张安珍 门雪莹 王宏志 李建中 高宏 期刊:《计算机科学与探索》 2015年第09期
随着现代社会互联网的普及应用,产生的海量数据普遍存在质量问题。针对数据质量中不一致性问题进行研究,设计并实现了基于Hadoop并行平台的不一致数据检测与修复算法。采用数据依赖理论中的条件函数依赖,根据给定规则检测不一致数据集,对这些不一致数据求解修复方案,使得修复结果满足数据一致性要求,并给出修复结果的确定性概率。最后通过实验证明了该算法较已有的单机算法有更好的修复效果,当约束规则较少的情况下,算法执行时间呈...
作者:张春生 图雅 翁慧 李艳 魏国利 期刊:《计算机应用研究》 2016年第02期
大数据时代,数据的来源复杂,数据质量存在严重问题,有些数据不准确、缺失或存在错误。不正确的数据严重影响了数据挖掘的质量,给决策造成重大的影响。关于缺失数据的修复方法很多,其中条件函数依赖就是一个有效的方法,在如何发现条件函数依赖方面已经有了很多研究成果。提出一种应用关联规则构建条件函数依赖的方法,由于关联规则通过数据挖掘得到,具有一定的隐蔽性,不是一般的方法能够发现,所以,由关联规则构建的条件函...