作者:王晓霞; 孙德才 期刊:《计算机技术与发展》 2020年第02期
局部相似自连接能在给定的单个数据集中快速找到所有满足相似要求的记录对,它在数据清洗、基因序列比对和剽窃检测等领域都有广泛的应用。为研究基于单个字符串集的并行自连接算法,提出了一种基于MapReduce框架的自连接算法,解决了局部相似自连接的定位问题。该算法采用了过滤验证二阶段模式;在过滤阶段,采用无关对过滤和冗余对过滤抛弃了大量的无效字符串对;在验证阶段,通过生成小编号串内容保留项解决了字符串编号和内容的快速配...
作者:李杨; 刘洋; 贺瑞心; 张贵轩 期刊:《电脑编程技巧与维护》 2020年第01期
随着医院信息化的不断深入和普及,病人的电子病历、药物信息、诊治记录和病人的个人信息等,存在着重复、不完整或错误的数据,无法在数据库中清晰明了地获取每个病人的信息,因此医学数据清洗应运而生。实现一个基于Kettle工具和Python语言的数据清洗平台。平台使用Kettle工具和Python语言对简单的医学重复数据、医学错误数据及医学不完整数据按照设计的清洗流程以及清洗规则进行清洗,之后通过Kettle转换存储到Hadoop平台的Hive数据...
作者:刘东华; 杨成涛; 练雄; 杨立超; 廖仲钦 期刊:《信息周刊》 2018年第07期
监测数据梳理是在对来自各数据源的各类数据进行汇集整合的基础上,按照输变电设备分析应用的要求对数据进行标准化处理;按照高级应用分析功能的需求对数据进行组合封装提交;为输变电设备监测分析提供基础化的、普遍性的数据统计、数据分析、数据导出服务。数据清洗是数据分析的第一步,实现对数据的预处理,各种KDD和DW系统都是针对特定的应用领域进行数据清理,在这里就是将没有意义的、错误的数据清除,方便了数据处理,提高...
作者:丁国辉; 孙莎莎 期刊:《科学与信息化》 2019年第08期
随着信息化进程的推进,大数据时代到来,获得信息的手段被广泛关注,数据清洗逐步成为一个新的研究热点。为了提高数据质量,本文针对异常点的检测问题进行研究,提出了一种基于动态规则约束的异常点检测算法。该算法的精度是目前存在算法检测精度的3~5倍,能够更准确的检测异常点。
作者:鲍毓楠; 程细金; 张强; 鲁潇南 期刊:《测绘》 2016年第01期
提高航天测绘遥感数据的质量管理水平具有重要的意义。本文在引入数据质量概念的基础上,剖析影响航天测绘遥感数据质量的各类因素,提出该数据质量管理的PDCA模型;结合航天测绘遥感数据质量改进中出现的四类质量问题,完成数据清洗模型的构建,为实现数据质量管理与改进的自动化提供理论参考。
作者:刘志欣; 黄旭; 魏加项; 于亮; 苏保强; 张皓; 冯冰清 期刊:《电力大数据》 2018年第08期
客户满意度反映了客户期望值与客户体验的匹配程度,是评价客户服务质量的一个重要指标。在电力客户满意度研究中,最重要的是获取真实的客户满意度评价结果。本文利用电力客户服务所积累的真实业务数据,提出了基于分层结构的客户满意度得分判定方法,该方法具有严谨的三层结构设计,与实际数据紧联系,逻辑逐层递进,互为补充,从而实现了从模糊的满意度评价到直观的满意度得分的顺利转化。随后通过实际应用案例研究,将电力客户...
在真实世界里,数据来源各式各样质量良莠不齐,所以原始数据一般是有缺陷的,不完整的,重复的,是极易受侵染的。这样的数据处理起来不仅效率低下而且结果也不尽人意,这种情况下数据的预处理显得尤为重要。一方面,数据预处理把原始数据规范化、条理化,最终整理成结构化数据,极大地节省了处理海量信息的时间;另一方面,数据预处理可以使得挖掘愈发准确并且结果愈发真实有效。
作者:陈钦柱; 张涵; 殷健; 杨鸣; 郑鹏程; 袁涛; 赵海龙; 孙魄韬; 司马文霞 期刊:《高压电器》 2019年第12期
系统过电压及其造成的事故屡见不鲜,严重威胁电网稳定性与安全性,因此,电网过电压数据的高效,准确获取是电网暂态分析和安全运行的重要保障。虽然相关研究已捕获了一定数量的过电压数据,但针对过电压数据采集与传输过程中数据库掺入错误、无效波形导致数据质量降低而无法实现有效应用的问题尚未解决。文中以某变电站实测过电压在线监测数据为研究对象,研究错误波形与真实过电压波形间的差异性规律,提出基于稀疏自编码、主成分分析(...
作者:白浩; 王昱力 期刊:《电工电能新技术》 2020年第01期
变压器是保障电网安全运行的重要基础,本文建立了一种基于数据清洗和知识迁移的变压器故障诊断模型,用于解决变压器单体故障数据少、总体数据繁杂导致诊断器泛化能力低的问题。首先,采用Tanimoto系数计算待诊断变压器与其他变压器故障的综合相似度,对辅助故障数据进行一次清洗;其次,通过剔除奇异边缘附近故障数据,对目标和辅助故障数据进行二次清洗;在两次数据清洗的基础上,以支持向量机作为迁移学习算法TrAdaBoost的基本分类算法,...
作者:黄菩臣; 练作为; 陶敏; 杨永强; 杜江; 赵蕴龙 期刊:《中国医疗设备》 2019年第12期
目的通过真实数据预测ICU患者的结局及对关键样本特征进行可视化。方法基于MIMIC-III数据库,通过数据清洗、特征选取等数据预处理方法从50000多例数据提取出研究所需要的原始数据,并通过机器学习算法(逻辑回归和线性SVM)进行ICU病房患者结局预测(存活/死亡)研究。同时基于ECharts开源可视化库对原始数据中关键样本特征进行数据可视化研究,分析出相应样本特征对于患者结局的关联性。结果逻辑回归算法的预测准确率最高,能达到70%,线...
作者:吴信东; 董丙冰; 堵新政; 杨威 期刊:《软件学报》 2019年第09期
随着信息技术的普及,人类产生的数据量正在以指数级的速度增长,如此海量的数据就要求利用新的方法来管理.数据治理是将一个机构(企业或政府部门)的数据作为战略资产来管理,需要从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化.目前,各行各业对大数据的研究比较火热,但对于大数据治理的研究还处于起步阶段,一个组织的正确决策离不开良好的数据治理.首先介绍数据治理和大数据治理的...
作者:王晓霞; 孙德才 期刊:《计算机科学》 2019年第12期
局部相似连接能快速找出数据集间的局部相似记录对,是基因序列比对、剽窃检测和数据清洗等研究领域的基本操作。文中主要研究基于MapReduce框架的并行相似连接技术,提出了一种基于Q-sample的局部相似连接算法,解决了局部相似连接的定位问题。该算法采用了过滤验证二阶段模式:在过滤阶段,所提算法使用Q-sample分割方案拆分字符串集,在不丢失任何匹配的基础上生成了高质量的子串,抛弃了大量的无关字符串对;在验证阶段,所提算法优化了...
作者:孙彦; 丁学文; 雷雨婷 期刊:《计算机与网络》 2019年第22期
为了改善当前人脸识别技术存在准确率低、算法运行速度慢和无法识别多个目标的问题,提出一种基于目标检测模型SSD_MobileNetv1的人脸识别方法,搭建Tensorflow Object Detection API框架,对人脸图像进行数据清洗和过滤来减少噪声对识别的影响,用MobileNetv1网络对图像进行特征提取,输入至SSD网络进行训练,使用梯度下降法优化训练网络中的权重.实验结果表明,多人脸识别目标定位准确、识别准确率高及模型训练的收敛速度加快,具有鲁棒...
作者:李维刚; 王肖; 杨威; 赵云涛 期刊:《钢铁研究学报》 2019年第10期
热轧生产过程实测数据具有噪音大、信噪比低等特点,运用合适的方法对异常数据进行清洗将有助于提高钢材力学性能预报模型的精度。基于带钢热连轧过程数据的分布特点,采用孤立森林算法对热轧过程异常数据进行清洗,提高了性能预报模型的预测精度。首先,基于收集到的大量热轧微合金钢生产过程数据,采用孤立森林算法计算原始数据集中每条数据记录的异常分值;接着结合异常分值排序与力学性能建模实验,确定异常数据记录的个数;最后,基于...
作者:段寒冰; 朱家明; 马晓旭; 方扶星 期刊:《哈尔滨师范大学自然科学学报》 2019年第04期
针对车险续保概率,运用K-means聚类算法,混合因素分析法建立了客户分群模型,广义线性混合模型,使用MATLAB,SPSS,Excel等软件进行处理分析.研究得出车险客户的精准画像并给出了客户分析报告和相应的续保概率.总结出了一套车险费率算法,为不同类型的客户量身定制了车险方案,以提高车险客户的续保概率.
作者:吕文斌; 秦笠伟; 洪敏慎 期刊:《数字技术与应用》 2019年第08期
随着上海市水务海洋数据中心的建设运行,每天都要汇聚全市多个涉海部门的大量海洋类监测数据。针对这些不同源端数据存在的一些结构问题、格式问题、缺失问题、噪点问题等,进行了技术清洗和规范整合。
大数据下的实体识别是提高数据实体同一性的关键步骤。本文概述了实体识别问题,介绍了不同类型的实体识别算法,重点分析了复杂数据类型的大数据实体识别算法,最后对实体识别算法的相关研究进行了展望。
作者:杜庆峰; 李岩 期刊:《信息技术与网络安全》 2010年第13期
讨论了软件度量的数据过滤和回归分析问题,提出了一种用盒式图进行数据过滤,再用回归分析得出线性回归直线的算法。
各高校都需要统计本校各个二级机构WebofScience(WOS)发文情况,论文提出一种基于正则表达式的半自动数据清洗方法,可从WOS地址字段中提取出发文机构排名、所属二级机构名称以及对应作者群,并以2015年南京师范大学WOS发文统计为例,进行实证研究,分析出各院系发文情况和作者发文情况。
作者:李俊达; 吴昊; 毛秋宇; 张复生 期刊:《现代信息科技》 2018年第03期
数据质量问题会给数据分析和挖掘带来致命的影响,因此需要对存在质量问题的数据进行清洗。数据清洗的方法和策略与具体的数据质量问题有关,本文以工业物料系统中的数据为实验对象,提出了一套简易高效的数据清洗流程,将通用的数据清洗的方法和策略实现具体化并加以改进。实验结果表明,该流程具有良好的应用价值。