首页 优秀范文 数据分析的方法

数据分析的方法赏析八篇

时间:2023-06-06 15:56:21

数据分析的方法

数据分析的方法第1篇

【关键词】数据比对;数据整合;主数据;业务流程

1.介绍

随着信息化应用的推广,大型机构中信息系统的数量在逐渐增多。但由于各系统数据规范不完整、系统间缺少数据接口,而使数据整合工作成为IT部门的一项重要工作;关于数据整合的重要性、数据整合的工具有很多论著[1-5]。数据整合包含了数据的提取、转换和加载,其中涉及计算机技术和业务逻辑。数据整合是非常重要的,甚至会影响信息系统/数据仓库建设的成败。一个对象存储在多个系统中,使得在数据整合的过程中必须要进行数据的比对,而且,此时的数据比对工作也是数据整合的核心内容。

每个系统对同一对象的理解角度不同,因此给出的对象定义也不相同;同时考虑数据的完整性,数据的时间局限性等导致数据的比对工作并不顺利。数据比对一般由计算机程序自动处理,后期则需要人工参与。涉及到数据比对的数据整合存在于诸多信息系统建设过程中,如国家基础信息库系统的建设;人口库数据分别来源于公安局、劳动局、教育局、劳动和社会保障局等,法人库数据来源于工商局、税务局、经委等;地理信息资源库来源于规划局、房地局、水务局、建管局、交管局等。

本文先定义了一种以主数据定义和分析主数据流为主线的数据比对方法。结合实际项目案例给出具体比对过程。

2.数据比对过程和方法

本文介绍的数据比对方法,以原因分析为重点,强调不匹配数据的原因分析并结合业务逻辑,对历史数据和增量数据给出整改方法。

数据比对的过程可以分为以下7个步骤分别是:数据获取、主数据定义、主数据流分析、程序比对逻辑、人工比对逻辑、原因分析、处理建议。

2.1 数据获取

从两个(或多个)源系统中获得待比对的原始数据。需要注意的是每个信息系统均为运行的系统,数据会产生变化。因此应该首先统一数据获取的时间。如获取截止到2008年10月1日24:00止的数据。并对该时间点之后的增量数据做标记,以备后续的数据比对。

2.2 主数据定义

按照新系统或数据比对的业务要求,定义比对的关键数据项(数据字段)。确定这些数据项的含义、来源(以哪个系统数据为准)、在各自系统中的名称、各自系统中对应的数据项(数据字段)。此步骤是数据比对工作的核心部分,需要明确关键数据项的来源和责任。如对于人口数据:姓名和身份证号码来源于公安局,教育程度来源于教育局,就业单位信息来源于劳动和社会保障局等。

在定义好主数据之后,需要视具体应用系统情况而定,对原始数据进行数据清洗。以便剔出非法数据,降低人工比对的工作量和提高数据比对的成功率。数据清洗工作一般由计算机程序进行。

2.3 主数据流分析

根据具体的业务逻辑和业务流程,确定所有主数据在相关信息系统中的生命周期。需要明确以下内容:

(1)主数据的责任部门或责任人:是谁在何时创建、修改、交换或删除主数据;

(2)主数据的相关系统:相对于主数据生命周期的每个阶段,分别在哪个信息系统中保存,系统间接口关系。

(3)主数据流与业务流程的关系:新增流程、修改流程、删除流程对主数据的影响。

本步骤主要是关注主数据的修改记录。

2.4 程序比对逻辑

数据比对的第一阶段,一般通过计算机程序处理进行。需要整理出程序比对的逻辑,尽可能分析各原始数据的业务逻辑,寻找尽可能多的数据对应关系。有些数据只能通过唯一的标识进行比对,如人口信息通过身份证号码进行比对或者通过联合身份证号码和姓名一起进行比对;有些数据可以有多种程序比对逻辑,如电路数据中第一种程序是电路编号相同,第二种程序是工程编号相同,第三种程序是电路两端地址均相同。

2.5 人工比对逻辑

由于信息系统建设的时间不同、业务流程与IT系统的结合程度不同、部分业务数据不完整等情况,程序比对往往达不到100%。因此在程序比对后产生的遗留数据必须由人工来完成。

在人工比对过程中,需要整理出人工比对的方法。如人口数据比对中,不同身份证号码相同配偶名称和身份证号码,则可以认定为同一个人。

2.6 原因分析

对于人工比对的数据,我们需要分析数据不匹配的原因。可能是由于无业务流程或纸制流程的问题,可能由于流程与IT系统衔接的问题,可能由于系统间数据交换导致的数据不完整的问题,可能是人工输入错误的问题等等。

在分析的过程中需要考虑哪些原因影响存量数据,只影响到历史数据并且修正后不会再次出现;哪些原因是由于业务流程导致的,在修正该业务流程之前还会再次出现。

数据不匹配的原因分析是一项具有挑战性的工作,同时也是一项有意义的工作。通过原因分析,可以对业务部门的工作进行评价考核,对业务流程进行梳理改造,对业务与IT系统结合给出完善意见。

2.7 处理建议

人工比对的数据,按照不同的原因提供不同的处理意见。直接修改:对于不影响业务流程、不影响业务操作的数据,按照主数据的定义和责任直接在相关系统中修改;

业务部门尽快修正:对于一些影响正常业务操作的数据,如帐务系统中应收帐而未收帐数据、财务系统中存款或余额不一致、资源系统中应使用而未用资源等情况,由相关业务部门牵头尽快改修正。

制定细致解决方案:对于原因比较复杂的、涉及到业务流程的数据,则需要招集各相关部门研究,制定细致的解决方案。由于业务流程导致的数据不匹配,需要给出流程改进的建议。不匹配数据的修改越快越好。

3.项目案例数据比对

下面以实际项目作为例,介绍数据比对的过程。

某通信运营商大客户网管系统中包含传输专业、交换专业和数据专业(IP、ATM、DDN)总计五种电路数据。需要从前端CRM中获取客户名称和电路编号(简称前端电路);从后端NetMaster资源系统中获取电路编号和电路状态等详细信息(简称后端电路)。以下数据是20家样本大客户的传输专业电路数据(简称样本数据)的比对结果。

3.1 数据获取

截止时间为2013年10月30日24:00,分别获取了样本数据的前端电路总计2110条,后端电路总计2428条。前端电路根据客户名称以及客户层次关系获取,后端电路的客户名称没有层次关系因而采用客户名称的关键字模糊查询进行获取。

3.2 主数据定义

如表1所示,样本数据的主数据为:客户名称、电路编号、电路A端地址、电路Z端地址。

3.3 主数据流分析

该通信运营商传输业务分为本地业务和长途业务,本文只介绍本地业务流程。由于目前传输本地业务的拆机和移机流程未固化到信息系统,因此本文分析了早期的新增电路流程(如图1所示)。

(1)政企客户部负责受理大客户的传输电路业务;

(2)政企客户部通过CRM系统录入客户的名称、电路甲端地址、电路乙端地址以及其他数据并保存;

(3)由CRM系统自动产生客户编号;

(4)由CRM系统调用97系统产生电路编号,同时记录到CRM系统和97系统中;

(5)业务流程流转到NetMaster系统,由网络运行部录入A端地址、Z端地址,报完工;

(6)完工信息经97系统流转到CRM系统,完成开帐。

3.4 程序比对逻辑

(1)CRM中的资产编号和NetMaster系统中的链路编号相同的,程序比对成功。

(2)CRM中的电路一端地址中记录相关长途电路编号,而且和NetMaster系统中的链路编号为长途电路编号相同的,程序比对成功。

(3)程序比对结果:

前端电路:电路总数2110条,程序比对成功总数1614条,程序比对成功76.49%。

后端电路:电路总数2428条,程序比对成功总数1838条,程序比对成功75.70%。

3.5 人工比对逻辑

由于传输电路业务开展时间较长,并且信息系统建设情况比较复杂,因此出现了部分程序比对不成功的电路数据。经过各相关部门的人工比对,整理出以下人工比对逻辑:

前端电路存在,查找不到后端电路:

(1)根据前端电路编号在长途资源库中查找对应的的后端电路的链路编号(电路编号);

(2)前端电路中部分电路是郊区电路,暂时未整合在一起。

可以不计在前端电路中;后端电路存在,查找不到前端电路:

(1)根据后端电路的工程编号在CRM中查找对应的前端电路资产编号(电路编号);

(2)根据后端电路的两端地址、电路类型、客户经理保存资料等信息在CRM中查找对应的前端电路的资产编号(电路编号);

(3)后端电路中部分电路是局内中继电路,不属于大客户的保障电路。可以不计在后端电路中;

经过程序和人工比对传输电路数据比对结果总匹配率为98.33%,如下:

前端电路:电路总数2110条,程序比对1614条,人工比对445条,总成功率97.58%。

后端电路:电路总数2428条,程序比对1838条,人工比对565条,总成功率98.97%。

3.6 不匹配数据原因

经过分析得知,导致数据比对不成功的原因如下:

(1)部分后端电路保存在长途资源库中,未保存在NetMaster系统中。记录数28条。

(2)前后端记录相同工程编号,而不同电路编号,记录数14条。

(3)部分前端电路保存在大客户一站式受理系统中,未保存在前端CRM系统中,记录数12条。

(4)部分后端电路属于总头客户,不保存在前端CRM中。不计在20家大客户电路中,记录数3条。

(5)CRM中电路状态不匹配(正常流程中),分别为未报完工、移机未报完工和拆机,记录数8条。

(6)其他未知原因,记录数8条。

3.7 处理建议

针对数据不匹配的原因分析,我们给出的处理意见如下:

第一,对不匹配数据的处理意见。

(1)对于配置类错误数据直接修改。

这些数据包括由于客户名称不一致、电路编号不一致而导致数据比对不成功;此类数据的修改对业务运行以及各业务系统的数据完整性不产生影响。由相关部门按照主数据的定义规则直接修改。

(2)不属于大客户保障范围电路做标记。

这些数据本不应该属于大客户保障范围电路,应该在系统中对这些电路做标记。

(3)对于其他复杂原因,招集相关部门讨论解决。

第二,对业务流程的改进意见。

(1)传输专业“移机流程”和“拆机流程”的完善。

“拆机流程”未固化到系统中,“拆机流程”以“先装后拆”代替。因此会产生导致早期数据完整性错误,现已完善业务流程。

(2)长途电路的流程存在缺陷,会导致前后端电路编号不一致。需要尽快招集相关部门讨论解决方案。

4.总结

通过对样本大客户电路数据比对过程的研究,总结了程序比对和人工比对的方法,发现了业务流程上的少量问题。为下一步大批量数据比对提供参考,有效提高程序比对、人工比对、数据修正的工作效率;同时为完善IT系统、加强业务流程和IT系统之间的配合提供了参考依据。

参考文献

[1]Monge,A.E.Matching algorithm within a duplicate detection system.IEEE Data Engineering Bulletin,2000, 23(4):14-20.

[2]郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2081.

[3]田芳,刘震.数据仓库清洗技术讨论[J].青海师范大学学报(自然科学版),2005(4):50-53.

[4]王新英,陈语林.数据抽取、转换、转载综述[J].企业技术开发,2004,23(8):3-5.

数据分析的方法第2篇

关键词: 数据挖掘;数据仓库;相关分析

中图分类号:TP 311.3 文献标志码:A 文章编号:1672-8513(2011)03-0182-03

The Application of Correlation Analysis Algorithms in the Data Invites Chien

ZHANG Hanyun,DUAN Peng

(School of Mathematics and Computer Science,Yunnan University of Nationalities,Kunming 650031,China)

Abstract: The data warehouse was constructed by using the mass data of computer science majors’ scores generated during the past three years in thirteen classes of four grades, we analyze the corresponding degree of different courses in the database using corresponding analyzing techniques, and condense the attributes in database according to corresponding factors, An example is given to illustrate the application of the proposed method. The analysis introduced in the paper has provided a scientific basis for improving the teaching quality .Then it is prepare for the Association rules mined of different courses.

Key words: data mining;data warehouse; correlation analysis

相关分析法是在分析某个问题或指标时,将与该问题或指标相关的其他问题或指标进行对比,分析其相互关系或相关程度的一种分析方法,用少数几对综合变量来反映2组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用.本文主要研究如何利用相关分析技术产生计算机专业课之间的相关系数,发现专业课程之间的相关度,对数据仓库中的数据进行约简[1].

1 相关分析

1.1 相关分析概述[2]

相关分析(Correlation Analysis)是研究随机变量之间的相关关系的一种统计方法.相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系.例如,教育投资与教育发展速度的关系、教师教学水平和学生的学习效果之间的关系等[3].

相关系数值为-1(完全负相关关系)~+1(完全正相关关系)之间,相关系数为0时,表示不存在相关关系.例:

正相关:学生的学习能力与学习成绩的关系;

负相关:教师的身体状况与缺勤率的关系;

零相关:教师的身高与教学能力的关系.

Pearson相关用于双变量正态分布的资料,其相关系数称为积矩相关系数(Coefficient of Product-Moment Correlation).进行相关分析时,我们一般会同时对2变量绘制散点图,以更直观地考察2变量之间的相互变化关系[4].

用Flag Significant Correlations 进行显著性检验,标出有显著性意义的相关系数,用一个星号“*”标记在α=0.05水平上有显著性意义的相关系数;用2个星号“**”标记在α=0.01水平上有显著性意义的相关系数[5].

1.2 相关分析的表示方法

进行相关分析的主要方法有图示法和计算法.图示法是通过绘制相关散点图来进行相关分析,计算法则是根据不同类型的数据,选择不同的计算方法求出相关系数来进行相关分析.

1.2.1 图示法

图示法的具体做法就是绘制相关散点图.相关散点图是观察2个变量之间关系的一种非常直观的方法.具体绘制的方法是:以横轴表示2个变量中的1个变量(作为自变量),以纵轴表示另一个变量(作为因变量).将2个变量之间相对应的变量值以坐标点的形式逐一标在直角坐标系中,通过点的分布形状和疏密程度来形象描述2个变量之间的相关关系.

相关散点图可以通过手工绘制而得到.但如果面对的变量值比较多,手工绘制的过程既费时,又不够精确.

1.2.2 计算法

相关系数也称为相关量,是用来描述变量之间变化方向和密切程度的数字特征量,一般用r表示.它的数值范围在-1到+1之间,它的正负号反映变量之间变化的方向;它的绝对值的大小反映变量之间关系的密切程度.

根据2个变量变化的密切程度,我们把相关关系分为完全相关、高度相关、中度相关、低度相关、零相关[6].

完全相关:│r│=1的相关;

高度相关或强相关:0.7≤│r│<1的相关;

中度相关:0.4≤│r│<0.7的相关;

低度相关或弱相关:│r│<0.4的相关.

1.3 Pearson相关

Pearson相关也称积差相关,积差相关也称积矩相关,是英国统计学家Rearson提出的一种计算直线相关的方法,因而又称为Rearson相关[6-7].

积差相关系数是2列成对观测值中各对观测值的标准分数乘积之和除以观测值对数所得之商[8].

1.3.1 Pearson相关的使用条件

1) 2个变量之间是线性关系,都是连续数据;

2) 2个变量的总体是正态分布,或接近正态的单峰分布;

3) 2个变量的观测值是成对的,每对观测值之间相互独立.

1.3.2 Pearson相关的计算公式

r=∑ZXZYn=∑X-Y-nσXσY.

式中,[ZK(]n表示数据的对数;σX,σY分别表示X和Y变量的样本标准差;[JP],分别表示X和Y变量的样本平均数.[ZK)]

对于学生成绩,其课程总体分布接近正态分布,满足Pearson相关的使用条件.在统计软件SPSS中,可以很方便地得出2变量之间的Pearson相关系数.[JP]

2 用相关分析法进行数据约简

2.1 学生成绩数据仓库的建立

数据选择上,主要选择了作者所在学校计算机专业3年来产生的专业基础课成绩,收集并整理了包含高等数学、C语言、数据结构和数据库系统原理的504条学生成绩数据.并将具体的成绩数据离散化为4个等级[9],即:

成绩>=80“A”; 70=

2.2 用相关分析法进行数据约简

对大规模数据库内容进行复杂的数据分析通常需要耗费大量的时间,这就常常使得这样分析变得不现实和不可行,尤其是需要交互式数据挖掘时.数据约简技术正是用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘,显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果基本相同[10].

数据约简并不是一个新的领域,现在已经提出了很多理论和方法,如:层次分析法,主成分分析法,随机抽样、免疫算法等.本研究根据实际需要,提出将相关分析方法应用于学生成绩的属性约简,即方便快捷又不失理论性.

在SPSS软件中,画出计算机专业课高等数学成绩的直方图,如图1.

用同样的方法,可以画出其他计算机专业课如C语言、数据结构等的直方图,可以看出,我们所建立的数据仓库中,学生计算机专业课程成绩基本上符合正态分布,满足Pearson相关的使用条件.

我们用双变量相关分析技术来分析相关课程之间的关联程度,并做出统计学推断,以最少的数据量反映最大的信息量,进而对数据库的属性进行约简.通过相关分析约简相关性较弱的属性,选择相关性强的属性而不直接利用数据库中的所有属性,从而减少大量冗余属性,以提高算法的效率.

在SPSS中进行课程间Pearson相关系数分析,得到计算机专业课程相关系数分析表如表1.

1:表中数值为4门课程进行相关分析得到的皮尔逊相关系数(Pearson Correlation)、相伴概率(Sig.(2-tailed))、样本个数(N).“*”标记在α=0.05水平上有显著性意义的相关系数;用两个星号“**”标记在α=0.01水平上有显著性意义的相关系数;

2:相伴概率用来判断求解线性关系的两变量之间是否有明显的线性关系.一般将这个Sig值与0.05相比较,如果它大于0.05,说明平均值在大于5%的几率上是相等的,而在小于95%的几率上不相等;如果它小于0.05,说明平均值在小于5%的几率上是相等的,而在大于95%的几率上不相等;如C语言与数据结构的Sig是0,此数值说明C语言与数据结构有显著的线性关系(因为Sig0.05,则说明两变量之间没有明显的线性关系).

由表1可以看出,同一门课程之间的Pearson相关系数为1,是完全相关关系.高等数学与C语言之间的Pearson相关系数为0.283,C语言与数据结构之间的Pearson相关系数为0.281,数据结构与数据库系统原理之间的Pearson相关系数为0.565,并且都有“*”标记,由此可以推断这4组课程之间有显著性意义的相关性.

3 结语

用相关分析技术对数据库进行约简,结果表明:线性代数、计算机导论及Pascal语言等多个因素相关性较弱;而C语言、数据结构、高等数学及数据库系统原理之间相关性较强,根据数据库约简原则,可将线性代数、计算机导论及Pascal语言等多个属性项从数据库中删除,以便提高数据挖掘效率.

参考文献:

[1]段西凌,甘开鹏.数据挖掘在人口普查信息系统中的应用[J].云南民族大学学报:自然科学版,2006,15(2):170-172.

[2]茆诗松.统计手册[M].北京:科学出版社,2003.

[3]TANG Zhaohui,MACLENNAN J.数据挖掘原理与应用[M]. 邝祝芳,焦贤龙,高升,译.北京:清华大学出版社,2007.

[4]王艳.数据挖掘中关联规则的探讨[J].成都信息工程学院学报,2004,19(2):173.

[5]张儒良,王翰虎.论数据挖掘优化教学管理[J].贵州民族学院学报,2004:133.

[6]赵辉.数据挖掘技术在学生成绩中分析中的应用[D].大连:大连海事大学,2007.

[7]王月敏.基于遗传算法的智能组卷系统研究[J].云南民族大学学报:自然科学版,2009,18(2):173-176.

[8]刘利锋,吴孟达. 关联规则的快速提取算法 [J].计算机工程.2008,34(5):63-65.

[9]李萍,段富.数据挖掘中数据约简的研究与应用[J].微计算机应用.2009,25(2):58-60.[ZK)]

[10][ZK(#]蔡勇,韩永国,刘自伟.数据挖掘技术在生源分析中的应用研究[J].计算机应用研究.2004,32(6):48-51.

收稿日期:2010-09-06.

数据分析的方法第3篇

网站优化数据分析方法一:流量分析

分析网站流量这是首要工作,如果是网站建设初期,那么此时的流量分析就只要记住网站登陆搜索引擎后的流量基数即可。如果是网站建设中期的话,就要记录网站流量一周的平均值,如果是网站建设后期的话,就要记录网站流量的阶段性波动值!记录好了流量值之后,就可以很好的计划出下一步优化推广的流量值了。

网站优化数据分析方法二:关键词分析

网站关键词分析也是网站优化的重要工作之一!分析现在网站关键词的布局,分析网站有流量的关键词,分析网站还没有覆盖的与网站业务相关的关键词,分析出网站主关键词的排名情况,分析关键词的设计是否合理。分析顶级关键词是否占据了搜索引擎首页的排名,分析搜索关键词的质量高不高,与网站业务的相关度如何?!分析关键词转化率如何等等。

网站优化数据分析方法三:转化率或业务目标实现情况如何

数据分析的方法第4篇

【关键词】计算机 数据库 升级 维护

一、引言

计算机技术的发展,带动诸多领域技术的拓展。计算机实际上就是对数据的一种处理技术,然而在计算机的呈现过程中,需要对计算机可以识别的二进制数据进行转换。例如,在计算机上可以呈现十进制的数据,包括图像以及文字等相关的非二进制数据等等。但是,在数据库的使用过程中,需要进行定期的升级与维护。那么,如何通过技术手段来进行数据库的升级与维护是本文研究的重点。

二、计算机数据库的技术分析

计算机的最初使用原理是通过其强大的中央处理器的计算功能,实现航天工程的数据计算。因此,在计算机出现之初,有着很多大型机以及巨型机等。但是,人们对于计算机的改造改变了原有的功能。现代计算机技术开始应用到各个行业中,并成为了人们生产与生活的主要工具。在计算机应用领域中,对于数据的处理非常常用。尤其是事业单位或者是企业对于人员的信息以及公司的管理数据等,都需要建立一个庞大数据库。因此,基于计算机的数据库技术开始得以兴起,并成为现代数据的主要处理技术。

(一) 传统的数据技术处理分析

计算机数据库技术出现以前,人们对于数据的处理需求已经非常明显。例如,财务人员对于财务账单的管理以及物流公司等进行货物清单整理,都是非常重要的数据处理工作。传统的数据处理工作主要用人工完成,通过人员的计算与记录,从而实现数据处理。但是,由于人工操作存在一定的问题,并且有较大的误差。尤其是在处理的过程中,容易出现错误的现象,造成数据处理失败。最为重要的就是,人工处理的效率非常低,无法满足现代的要求。因此,传统的处理方式已经逐步淡出时代,并亟需全新的数据处理技术。

(二) 计算机数据库技术分析

计算机的微型化,开始出现了更多的实用性技术,尤其是对工作的辅助软件开发,让计算机开始转入了工作人员的业务线上。由于现代社会,太多的数据需要处理,尤其是一些专门处理数据的部门,传统的处理方式不科学,效率也低。因此,计算机数据库的技术开始使用,并得到了非常好的应用效果。计算机的数据库技术是通过电子数据的方式,建立一个具备数据储存空间的库。然后,通过计算机的处理录入功能,将数据进行存储以及保存。数据库的最大优势在于其能够进行实时的调用与更新,能够非常快速的查找以及调用数据成为了数据库能够被广泛应用的主要原因。但是,完善数据库以及加强数据库的功能,还需要不断的进行数据库的升级以及更新与维护。因此,计算机数据库技术也是非常有效的技术。

三、计算机数据库的升级与维护方法探究

计算机数据库的升级与维护需要一定的技术支持,数据库的升级实际上就是对数据库的内部数据进行定期的更新。例如一些数据以及失去了存储的意义,那么就需要进行数据删除,在数据库领域中,通常称这样的操作叫做数据内存释放。而为了完善数据库通常要进行数据的添加,因此,对于数据库的升级而言,主要的升级措施在于将数据库的保存数据进行有效的内存释放以及新增数据的添加。此外,由于数据进行了更改,需要从编程的角度进行数据匹配,通过数据匹配可以完成从调用到查找的一系列操作。因此,数据库的升级需要进行手动更新与代码的匹配编译。

数据库的维护方法很多,其中包括手动维护与自动维护。对于自动维护,主要是通过一定的代码编译系统,进行定期的更新操作。其中,包括诸多的网站更新等等。目前,很多网站都进行数据库的数据绑定,以此作为网站的基本数据来源。而手动维护的范围就比较广,对于手动维护,一般都是对数据库进行数据新增,以及通过一定的操作进行代码编译的更新与匹配。手动维护的过程中,需要对数据库的整体关键代码语言进行分析,从而才能保证数据库在更新的过程中,实现无缝对接。

总之,在数据库的技术理念中,数据库的主要目的在于将数据进行智能分类与处理,其中包括保存与储存等基本的操作。在进行调用的过程中,需要保证数据库的完善性以及调用语句的有效性。最为重要的是,如果数据库的数据出现丢失,那么一定要进行备份处理。也就是说,数据库需要进行定期更新的处理,从而保证数据库的有效性。

四、结语

通过对计算机数据库的分析,可以明确计算机数据库技术是能够在一定程度上完善对数据的处理功能,并提高数据库的存储以及调用等操作。但是,随着计算机技术的发展,数据库实际上也只是一种应用软件的开发技术,需要不断进行更新升级以及维护操作。对于数据库的数据处理而言,需要进行相应的升级与维护。在对数据库的使用过程中,需要考量使用者对于数据库的使用措施。因此,在一定程度上,数据库的维护是需要多角度进行的。总之,计算机数据库需要进行定期的升级与维护,才能保证其发挥最大的作用。

参考文献:

[1]范士奇,如何实现C/S模式数据库应用系统升级[J],电脑编程技巧与维护,2013(15):89-90

[2]夏玲,钱雪峰,戴琳,吴庆,余俊杰,基于PostgreSQL数据库的空调性能测试数据管理系统[J],自动化技术与应用,2013(07):22-24

[3]王怀仁,Director中应用Flash DataGrid组件实现数据库良好功能[J],沈阳师范大学学报:自然科学版,2013(03):405-408

作者简介:

数据分析的方法第5篇

【Key words】Mergers and acquisitions; Target company; Data Envelopment Analysis

0 引言

目前企业产业化加剧集中,为使企业能够更快地发展,企业并购已成为一种必然趋势。企业并购的实质是企业控制权的一种权利变迁。并购过程需要在特定约束条件下才能够进行,在并购中一部分权利所有者通过让出所拥有的控制权,而另一部分权利所有者则付出某些代价来分别换取相应的利益。实际上,企业并购的过程是权利主体不断变换的过程。

目标企业的选择是一项复杂的工作,通过多角度全方位衡量一个企业的运营管理、财务管理、人力资源管理、企业文化管理等不同方面, 才能判断是否该企业能够实施企业并购。当前企业并购过程中,目标企业的选择方法层出不穷,有的甚至是面向企业并购后的一些活动研究,但其大多数都是运作性和实践性较差。以往企业实施并购过程选择目标企业一般会运用指标评价法,而指标评价方法的核心是根据理论研究和实践经验,制定出的一系列指标, 依据这些指标对企业进行评估,但在这种评价方法的指导下, 并购之后企业的运营绩效可能并不理想, 甚至许多企业会发现这样的是错误的。因此为解决上述问题,一种新的企业并购方法即数据包络分析(DEA)方法被提出。?稻莅?络分析(DEA)方法是同时考虑多个输人指标和多个输出指标, 判定哪些企业符合并购的条件和标准,对于那些不符合并购标准的企业给出改进的意见。

1 数据包络分析(DEA)评价方法

1.1 DEA评价方法的概述

数据包络分析(Data Envelopment Analysis,简称DEA)由查恩斯等学者提出,通过不断地运算研究,把单输入单输出的理论演变到多输入多输出,尤其是多输出的同类型决策单元(DMU)的有效性评价中。DEA 是运用数学模型来评价具有多个输入和多个输出的“部门”或“单元”的相对有效性。依据DMU的每个观测数据判别其是否有效,实际上是判别各DMU 是否位于生产可能集的“前沿面”上。DEA方法的基本思想是,一个决策单元的输出矢量是由其他DMU输出向量从“顶”包络,输入向量是从“底”的其他输入向量包络,如果某个DMU 的输人和输出向量不能同时被包络时, 认为决策单元DEA为有效决策单元,否则是无效决策单元。

1.2 DEA基本模型

在实际市场运营中,企业常会遇到多输入多输出情形,尤其是针对多输出的生产过程,方法解决很难找到。在1978年,运筹学家查恩斯等运用数学模型得出最基本的C2R模型。C2R 模型有两种形式,一种是分式规划,另一种是线性规划,这两种形式是等价的。考虑到计算方便本文将采用线性规划形式。

依据凸性、锥性、无效性和最小性的定理假设,可以得出以下带有非阿基米德无穷小量ε的C2R模型:

1.3 输入、输出指标的选择

DEA方法的输人、输出指标的选择必须遵循以下的原则:(1)指标是可获取的;(2)该指标是可测量的;(3)该指标能够反映企业的实际情况。根据以上标准, 综合考虑企业在实施并购过程中的特点和要求, 制定出以下DEA评价方法的输入、输出指标,如表1所示。

表1 DEA方法的输入、输出指标

1.4 DEA模型在企业并购中的应用及其结构分析

假设有n 个待评价的决策单元(DMU),有n个输入指标,有s个输出指标。如果这是用来评估的输入输出线性组合之比决策,其输出的决策单元的线性组合的比值小于或等于1,从而构成一个相对有效评价的DEA计算模型, 即CCR模型:

从以上结果, 可以看出: 企业1 和企业2 对应的有效值分别为0.946 和0.9 52, 均属于非DEA有效。企业3 的有效值为1 , 属于DEA 有效。表中松弛变量反映了各企业的输人变量和输出变量的调整程度。举例来说, 企业2 需要增加42 名员工, 增加63万元的财政拨款, 并降低39%的资产负债率, 才能够达到DEA有效。因此,企业3是理想的并购对象。

2 结论

根据上述的分析,在企业的并购过程中采用数据包络分析(DEA)方法能够有效的解决目标企业的评估和选择的问题,通过DEA方法的指导,并购的企业可以在众多的目标企业中选择出较为理想的并购企业。与企业的指标评价法相比较,数据包络分析(DEA)方法的优点:

(1)多个输入和多个输出可以同时考虑,而不用确定单个输入和输出的权重;

数据分析的方法第6篇

关键词:大数据分析方法;企业档案管理;档案数据资源;企业创新决策

Abstract: With the gradually go deep into the research of big data, the enterprise innovation decision-makings are more and more dependent on data analysis, and the enterprise archive data resources provide the data base for enterprise’s these decisions, therefore used of big data analysis in Enterprise Archive Management has important significance. This paper detailed expounds the Data Quality Management, Visualization Analysis, Semantic Engines, Data Mining, Tendency Prediction and so on five big data analysis methods in the application of Enterprise Archive Management and problems that deserve attention.

Keywords: Big data analysis method; Enterprise Archive Management; archives data resources; enterprise innovation decision-making

2015年9月5日,我国政府了《促进大数据发展行动纲要》,旨在促进大数据和云计算、物联网、移动互联网等新一代信息技术的融合,探索大数据和传统产业发展新模式,推动传统产业转型升级和新兴产业发展。正如大数据专家舍恩伯格所说:大数据正在改变人们的生活和人们理解世界的方式,更多的变化正蓄势待发,大数据管理分析思维和方法也开始影响到我们企业档案管理的发展趋势。

1 大数据分析方法在企业档案管理中应用的背景

1.1 大数据研究逐渐纵深化。自从2008年science杂志推出Big Data专刊以来,国内外对大数据的研究如火如荼。经过一段时间的探索,“目前大数据领域的研究大致可以分为4个方向:大数据科学、大数据技术、大数据应用和大数据工程。而人们对于大数据技术和应用两个方面的关注比较多”[1]。正如2012年奥巴马政府投入2亿美元启动 “大数据研究和发展计划”的目标所显示的那样,目前大数据的研究逐渐向纵深化方向发展,着重从大型复杂的数据中提取知识和观点,帮助企业实现从“数据分析能力”向“数据决策能力与优势”的转化。

1.2 企业创新决策越来越依赖于数据分析。对于企业技术创新者而言,目前更多的企业高层越来越依靠基于数据分析的企业技术创新决策。靠传统的经验方法去决策往往是滞后的,因此,大数据分析方法作为先进的定量分析方法,目前出现的一些先进数据分析方法与技术势必会对企业的运行管理、生产业务流程、管理决策产生飞跃式的影响。大数据分析方法也成为企业档案数据分析、技术创新决策的有效工具。

1.3 企业档案为企业创新决策提供数据基础。对于一个企业而言,使用的数据资源必须具有真实性可靠性。“企业档案是在企业的各项活动中直接形成并保存备查的各种文献载体形式的历史记录”[2],企业档案是企业在生产、经营、管理等活动中形成的全部有用数据的总和。除了发挥着凭证参考维护历史真实面貌的作用之外,企业档案更“是企业知识资产和信息资源的重要组成部分”[3],具有知识创新性、不可替代性,为企业技术创新决策提供数据基础。“特别是在当前大数据背景下,企业档案数据资源的开发与建设对企业经营决策的制定与适应市场竞争环境起到关键性作用。”[4]

在上述背景下,将大数据分析方法应用在企业档案管理中具有重要性意义:不仅拓展企业的管理决策理论,同时帮助企业运用所拥有的档案数据资源洞察市场环境,发现新的竞争对手,进行自我总结,做出科学决策,使企业紧紧抓住大数据时代带来的市场机遇。

2 大数据分析方法在企业档案管理中应用的方式

大数据分析方法在企业档案管理中的实现方式即是将大数据分析方法运用在企业档案信息分析挖掘上。它贯穿企业数据处理的整个过程,遵循数据生命周期,广泛收集数据进行存储,并对数据进行格式化预处理,采用数据分析模型,依托强大的运行分析算法支撑数据平台,发掘潜在价值和规律并进行呈现的过程。常见的大数据分析方法“其相关内容包括可视化分析、数据挖掘、预测分析、语义分析及数据质量管理”[5]。

2.1 数据质量管理提升企业档案数据资源品质。大数据时代企业档案数据资源呈现出4V特点,这使得企业档案数据很容易出现不一致、不精确、不完整、过时等数据质量问题。基于数据生命周期对企业档案数据资源进行数据质量管理分为数据预处理、数据存储、数据使用三个阶段。在数据预处理阶段,通过ETL工具即数据经过萃取(Extract)、转换(Transform)、加载(Load)至目的端这几个预处理过程达到数据清洗和格式化的目的。目前Oracle公司的Data Integrator和Warehouse Build、微软的Dynamics Integration及IBM的Data Integrator都是比较常见的ETL工具。在数据存储与使用阶段,针对目前企业档案大数据呈现出4V的特点,传统关系型数据库在数据存储与数据管理方面已经难以胜任,非关系型数据库以其高吞吐量、可拓展性、高并发读写、实时性等特性能够满足数据存储与管理的要求。目前应用最广的是并行处理系统MapReduce和非关系型数据库比如谷歌的Big Table和Hadoop的HBase。将ETL工具移植入云计算平台系统,将会大大有助于完成数据清洗、重复对象检测、缺失数据处理、异常数据检测、逻辑错误检测、不一致数据处理等数据质量处理过程,从而保证企业档案数据资源的数据质量。

2.2 可视化分析提升企业档案数据资源可理解性。

“大数据可视分析是指在大数据自动分析挖掘方法的同时,利用支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术,有效融合计算机的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力。”[6]那么企业档案数据资源的可视化分析可以理解为借助可视化工具把企业档案数据资源转化成直观、可视、交互形式(如表格、动画、声音、文本、视频、图形等)的过程,便于企业经营者的理解利用。

以2015年2月15日最新版的“百度迁徙”(全称“百度地图春节人口迁徙大数据”)为例,该项目让我们近距离了解到大数据可视化。它利用百度后台每天数十亿次的LBS定位获得的数据进行计算分析,全程展现中国人口迁徙轨迹,为政府部门科学决策提供科学依据。受该项目启发,企业可将拥有不同类型的档案信息进行可视化,比如进行企业档案的网络数据可视化、时空数据可视化、时间序列数据可视化、多维数据可视化、文本数据可视化等[7]。以文本数据可视化为例,目前典型的文本可视化技术标签云,可以将档案文本中蕴含的主题聚类、逻辑结构、词频与重要度、动态演化规律直观展示出来,为企业决策提供依据。另外,常见的信息图表类可视化工具主要有Google chart、 IBM Many Eyes、Tableau、Spotfire、Data-Driven Documents(D3.js)等;时间线类可视化工具主要是Timetoast,、Xtimeline、Timeslide、Dipity等;数据地图类可视化工具主要有Leaflet、Google fushion tables、Quanum GIS等。这些新技术都为企业档案数据资源可视化提供了科学工具。

2.3 语义引擎实现企业档案数据资源的智能提取。大数据时代全球数据存储量呈激增趋势,传统的基于人工分类目录或关键词匹配的搜索引擎(谷歌、百度等)仅仅能够进行简单的关键词匹配,用户无法得到非常准确的信息,检索准确率并不高,而且检索结果相关度较低,检索结果缺乏引导性。为提供给用户高质量的检索结果,改善用户搜索体验,提高效率,实现智能提取,语义搜索引擎应运而生。“语义引擎是随着语义网的发展,采用语义网的语义推理技术实现语义搜索的语义搜索引擎。”[8]它具备从语义理解的角度分析检索者的检索请求,能够理解检索者的真正意图,实现信息智能提取。对语义分析可以采取自然语言处理方法进行概念匹配,提供与检索者需求相同、相近或者相包含的词语。目前存在基于本体的语义处理技术,它以本体库作为语义搜索引擎理解和运用语义的基础。对于企业而言,将语义引擎分析方法与协同过滤关联规则相结合,可以挖掘用户的需求,提供个性化的服务。比如亚马逊公司通过对用户检索的语义进行分析推理,结合协同过滤关联规则,为用户提供相近需求的产品,提升自己的经济效益。对于一份人事档案而言,语义引擎也能分析出该份人事档案中的某人的职务、级别,从中提取出姓名一职务一级别一时间等关键信息,提高检索准确率和效率,实现智能提取。

2.4 数据挖掘发现企业档案数据资源的隐性价值。“数据挖掘又称数据库中的知识发现”[9]。简而言之,数据挖掘就是企业从数据集中发现知识模式,根据功能一般分为预测性模式和描述性模式,细分主要有分类与回归模型、聚类分析模型、关联规则模型、时间序列模型、偏差检测模型等。主要挖掘方法有神经网络方法、机器学习方法数据库方法和统计方法等。

数据挖掘是大数据分析方法的核心。对于企业而言,数据挖掘的档案数据资源应该由两部分组成:一是企业正常运行管理过程中所形成的档案数据资源,通过运用分类、聚类、关联规则等方法对企业内部的数据进行挖掘,发现潜在模式,为企业技术创新人员决策提供支持。比如在2004年全球最大的零售商沃尔玛在分析历史记录的顾客消费数据时,发现每次季节性飓风来临之前,手电筒和蛋挞的数量全部增加。根据这一关联发现,沃尔玛公司会在飓风用品的旁边放上蛋挞,提升了企业的经济效益;二是企业在运行过程中遗存在互联网上的数据,通过网络舆情及时跟踪可以获取市场最新动态,为企业调整服务模式、市场策略、降低风险提供依据。比如Farecast公司运用数据挖掘,从网络抓取数据来预测机票价格以及未来发展趋势,帮助客户把握最佳购买时机,获得较大成功。

2.5 趋势预测分析实现企业档案数据资源的价值创造。“预测分析是利用统计、建模、数据挖掘工具对已有数据进行研究以完成预测。”[10]预测分析的方法分为定性与定量分析两种方法:定性分析如德尔菲法以及近年来人工智能产生的Boos-ting・贝叶斯网络法等;定量分析法一般从形成的历史数据中发掘数据模型达到预测效果,如时间序列分析模型、分类与回归分析模型等。

企业档案数据资源预测分析是在企业档案数据资源数据挖掘的基础之上,发现适合模型,将企业档案数据输入该模型使得企业技术创新人员达到预测性的判断效果,实现价值的创造。一个典型的例子即是市场预测问题,企业技术创新者可以根据档案数据预测某件产品在未来六个月内的销售趋势走向,进而进行生产、物流、营销等活动安排。具体来讲企业可以通过数据时间序列分析模型预测产品销售旺季和淡季顾客的需求量,从而制定针对独特的营销策略,减少生产和销售的波动性,获得利润和竞争优势。预测分析在大数据时代彰显出企业档案数据资源独特的魅力。

3 大数据分析方法运用于企业档案管理中应当注意的问题

3.1 成本问题。大数据分析需要依靠分析工具和运算时间,特别是在复杂的企业档案数据资源中采用相关大数据分析工具的科技成本还是很高的,要以最少运算成本获得更有价值的数据内容。合理选择大数据分析工具不光可以节省运算成本而且能够更快速获取盈利增长点,同时在大数据分析和企业档案数据资源的存储成本方面也要适当的控制在合理的范围内。既要保证大数据分析质量,又要降低企业档案存储成本是大数据分析方法运用到企业档案管理中的重要原则。

3.2 时效问题。“大数据的动态性强,要求分析处理应快速响应,在动态变化的环境中快速完成分析过程,有些甚至必须实时分析,否则这些结果可能就是过时、无效的”。[11]由此可见,影响大数据分析的重要因素就是时效性问题。“大数据数据分析的核心内容之一是数据建模”,[12]数据分析模型要不断的更新适应数据的动态变化。如果模型落后于数据的变化,那数据分析只能是失效的。同时由于经济环境、政治生态、社会文化等因素不断变革,企业档案数据的收集也会产生新的问题。只有不断加强对这些数据的实时监测和有效分析,才能更好的识别出数据变化中的细微之处,建立与之相适应的数据分析新模型。

3.3 情感问题。“大数据的另一个局限性在于它很难表现和描述用户的感情。”大数据分析方法在处理企业档案数据方面可以说如鱼得水,大数据分析是一种科学的机器运算方法,无法去实现人文价值提取,比如如何从企业档案数据资源中提取企业文化,这更需要人的情感直觉去实现,而严谨的科学数据是无法实现的。因此,我们在热衷于大数据分析方法的量化结果时,同时也不要忽略在传统企业档案管理中的那份人文精神。

数据分析的方法第7篇

关键词:GRA分析;原始数据;Excel

中图分类号:TP301 文献标识码:A 文章编号:1009-3044(2013)28-6441-05

GRA分析也称为灰色关联分析,是多因素统计分析方法的一种。常被用来分析各相关因素之间的发展相关趋势,并以各因素的参照样本为依据用灰色关联度来表示比较因素间相关关系的强弱和大小。如果因素之间的变化趋势是近似的或者变化较为同步,则可认为因素间的关联程度大;反之,则认为关联程度小[1-3]。与其他的多因素统计分析方法相比,GRA分析对数据的要求不高,能广泛应用于各种领域。但是在GRA分析原始数据处理方法选择上由于方法多,且不同方法得出关联度差异较大,难以快速得出可信度较高的关联度。为此,该文通过实例实现用Excel建设GRA分析公式计算及原始数据处理方法的优选,以得出更为可靠的关联序列。

1 GRA分析算法

设参照数据列为[x0],比较数据列[x1]。则:

[x0={x0(k)k=1,2,…,n}=(x0(1),x0(2),…x0(n))][xi={xi(k)k=1,2,…,n}=(xi(1),xi((2),…xi(n))]

为了保证分析结果的准确性,需要对原始数据进行无量纲化处理,让其数据消除量纲并具有可比性[4]。

1.1 原始数据处理

对各数列的原始数据无量纲化处理方法通常有以下6种[5]:

1) 中心化处理:[yi(k)=xi(k)-xiσi]

2) 初值化处理:[yi(k)=xi(k)x1(k)][yi(k)=xi(k)x1(k)]

3) 百分化处理:[yi(k)=xi(k)maxkxi(k)]

4) 最大值处理:[yi(k)=xi(k)-minkxi(k)maxkxi(k)]

5) 均值化处理:[yi(k)=xi(k)xi][yi(k)=xi(k)xi]

6) 极差化处理:[yi(k)=xi(k)-minkxi(k)maxkxi(k)-minkxi(k)]

1.2 计算灰色关联度

原始数据经过无量纲化处理变换之后,则[y0]与[yi]([i]=0,1,2,...,n)在[k]点的关联系数为:

[ξi(k)=minsminty0(t)-yi(t)+ρmaxsmaxty0(t)-yi(t)y0(k)-yi(k)+ρmaxsmaxty0(t)-yi(t)]

式中,[minsmintx0(t)-xi(t)]、[maxsmaxtx0(t)-xi(t)]分别为[x0]数列与[xi]数列的最小差值和最大差值,[ρ]为分辨系数,[ρ∈(0,1]],通常情况下,分辨系数[ρ]越大,分辨率越大,反之越小,可根据实际设定,一般取[ρ=0.5]。

由于每个点(k)都存在一个关联数,因此结果比较分散,不易做出比较,确定最终关联度为[ξi(k)]总和的平均数,即[ri=1ni=1nξi(k)]。

2 原始数据处理方法的优选

灰色关联度是通过比较各分析因素的关联度大小,从整体上体现出各分析因素对系统行

为的影响,以实现对比较序列各因素进行分类或排序的目的。显然,比较序列之间的差异程度越明显越好。不同的原始数据处理方法会得出不同的关联度和排序。在采用上述6种无量纲化方法得出的关联度[riq]之后,q=1,2,...,6,确定最佳关联度时需要遵循以下条件[6]:

3 应用Excel优选GRA分析原始数据处理方法

由于GRA分析在选择最为合适的原始数据处理方法时计算量很大,操作重复性强。所

以,可以应用Excel2010为数据分析平台,就能很好的解决这些问题[7]。解决问题思路是利用Excel能够定位的特点,把需要分析的数据输入到各单元格,在利用Excel内置的函数把这些单元格与GRA分析计算公式定位链接在一起,建立起能够一次性运算的灰色关联度计算模板[8,9],并从中找出不同数据处理方法的最优方法,使GRA分析计算出的结果更为精确、更加具有说服力。

本文以焦作市2006-2010年国民经济统计数据为例,选用6种数据处理方法分析工业生产总值、建筑业生产总值和第三产业总值三者与焦作市地区生产总值的灰色关联度,并从中优选出数据处理最适方法及对应最佳关联度。

3.1 数据准备

打开Excel2010,把采集到的原始数据输入单元格(图1)。

为让运算过程清晰有序,在F2:F6区域依次输入“平均值:”、“标准差:”、“初值:”、“最大值:”和“最小值:”。在G2单元格输入平均值函数“=AVERAGE(B2:B6)”,即可得出焦作市2006-2010年地区生产总值(B2:B6区域)的平均值,然后鼠标单击F2选中此单元格,并把鼠标移动到F2单元格的右下角,当鼠标变成黑色+形状时,向右拉至J2单元格处,即可依次得到比较序列工业生产总值、建筑生产总值和第三产业总值的平均值。在G3单元格输入标准差函数 “=STDEVP(B2:B6)”、在G4单元格输入“=B2”、在G5单元格输入最大值函数 “=MAX(B2:B6)”、在G6单元格输入最小值函数“=MIN(B2:B6)”,并分别向右拉至J列得出其余3比较序列的相应的值(图2)。

3.2 原始数据处理

由于篇幅限制,该文只列出第一种数据处理方法(中心化处理)的完整步骤,其余方法由于步骤重复性,只在不同处做简要说明。

步骤一

为了能让原始数据之间具有比较性,首先对各序列进行无量纲化处理。

根据中心化处理的公式 [yi(k)=xi(k)-xiσi], 在B10单元格输入“=(B2-G$2)/G$3”,其中$为固定行或列符号,下同。通过向下、向右拉动鼠标即可得出所有原始数据无量纲化处理之后得到的数据(图3)。

步骤二

原始数据经过处理后,再采用公式[x0(t)-xi(t)]计算比较序列与参照序列在各点上的变化态势的强弱,即计算比较序列与参照序列在每一时点上差的绝对值。

在F10单元格输入绝对值函数“=ABS($B10-C10)”,通过向右和向下拉可以得出所有比较序列所有时点与对应参照序列差的绝对值(图4)。

步骤三

在上个步骤得出区域(F10:H14)分别选出最小值,[minsmintx0(t)-xi(t)]、和最大值,[maxsmaxtx0(t)-xi(t)]。在E15单元格中输入最小值函数“=MIN(F10:H14)”,在I15单元格中输入最大值函数“=MAX(F10:H14)”即可得出相应区域的最小值和最大值。具体见图5。

步骤四

根据公式 [minsminty0(t)-yi(t)+ρmaxsmaxty0(t)-yi(t)y0(k)-yi(k)+ρmaxsmaxty0(t)-yi(t)] 求取 [ξi(k)] ,其中[ρ]在本例中取0.5,实际应用时可根据实际赋值。

在C16单元格中根据公式输入“=($E$15+0.5*$I$15)/(F10+0.5*$I$15)”,通过鼠标拉动可以得出比较序列在各个时点的灰色关联度。具体数值见图6。

最后把得出的[Δq]、[σq]相加得出数据处理方法是否最优的一个比较数据。在H19单元格中输入求和函数“=SUM(H17:H18)”即可得出。判断准则[Δq]+[σq] 以及Excel完整计算过程见图8。

3.3 其余方法计算步骤说明

对于第二种数据处理方法,初值化处理,只需将2.2章节中步骤(1)中的B10单元格输入变成“=B2/G$4”,其余步骤均相同,不必改变。同理,第三种方法百分化处理、第四种方法最大值处理、第五种方法均值化处理和第六种方法极值化处理只需分别在B10单元格输入变成“=B2/G$5”、“=(B2-G$6)/G$5”、“=B2/G$2”、“=(B2-G$6)/(G$5-G$6)”即可,其余步骤均相同。

3.4 GRA结果分析

通过才用Excel实现6中数据处理方法后,得出每种方法关联度、关联序以及判断准则,具体见表1。

根据章节1.3中关于确定最佳关联度时需要遵循的条件的说明,从上表中可以看出原始数据采用中心化处理方法得出的判断准则[Δq]+[σq]的值最大,因此在此例中,第一种原始数据处理方法中心化处理为最优方法,其得出的关联度[r1]=0.88、[r2]=0.52、[r3]=0.63,关联序[r1]>[r3]>[r2]最为严谨可靠。

4 结论

本文通过GRA分析并借助Excel计算得出焦作市2006-2010年工业生产总值、建筑业生产总值、第三产业生产总值三者与地区生产总值的灰色关联度及关联序,并能快速从多种原始数据处理方法中选择最佳方法,从而得出更加准确的结果。说明用Excel在对GRA分析以及原始数据处理方法的选择上,是一种快速、准确、可行的方法,具有一定的使用价值和实际意义。

参考文献:

[1] 王百合,黄建国,张群飞.基于改进灰色关联分析的目标威胁评估模型研究[J.计算机工程与应用,2008,44(4):212-213.

[2] 邓聚龙.灰理论基础[M].武汉:华中科技大学出版社,2002:6-28.

[3] 张学甫,陈述云,胡希龄.统计分析方法及其应用[M].重庆:重庆大学出版社,1995:1-87.

[4] 李荣平,李剑玲. 多指标统计综合评价方法研究[J].河北科技大学学报,2004(1):85-87.

[5] 刘思峰,郭天榜,党耀国,等.灰色系统理论及其应用[M].北京:科学出版社,1999:105-146.

[6] 李炳军,朱春阳,周杰.原始数据无量纲化处理对灰色关联序的影响[J].河南农业大学学报,2002,36(2):200-201.

[7] 邬万江,张连富,卢伟.用Excel建立灰色数列预测模型的研究[J].佳木斯大学学报,2005(7):378-381.

数据分析的方法第8篇

1因子分析模型及其统计检验

因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。因子分析的目的即在找出量表潜在的结构,减少题目的数目,使之成为一组数量较少而彼此相关较大的变量。在本文中以主成分因素抽取法抽取共同因素,根据Kaiesr(1960)的观点选取特征值大于1.0以上的共同因素,再以最大变异法进行共同因素正交旋转处理,保留共同度大于0.6以及因素负荷量大于0.5以上的题目。因素负荷量为硕士论文因素结构中原始变量与抽取出共同因素相关,负荷量越高表示该题目在该共同因素的重要性越大。共同度和特征值是因子分析的两个重要指标。共同度是每个变量在每个共同因子的负荷量的平方和,也就是个别变量可以被共同因子解释的变异量百分比,是个别变量与共同因子间多元相关的平方。特征值是每个变量在某一共同因子的因子负荷量的平方总和。

因子分析的数学模型及其统计检验描述如下:

彼此之间是独立的,则模型(4.1)称为正交因子模型;相反,如果公共因子彼此之间有一定相关性,则称为斜交因子模型。由于斜交因子模型比较复杂,在本文中只考虑正交因子模型,而且假定各公共因子的均值为0,方差为1。

模型中的矩阵A称为因子载荷矩阵,a称为因子“载荷”,是第i个变量在第j个因子上的负荷。因子载荷阵的求解方法有很多,本文用常用的主成分分析法,求解载荷阵得到仅包含m个因子的因子载荷阵。主要问题就在于如何通过SPSS统计软件对数据的分析来估计因子载荷矩阵A,负荷量大的指标给予保留,否则剔除。保留下来的指标所构成的体系就是本文最终研究得到的指标体系。关于因子载荷的检验有:模型的标准化,这主要是为了得到抽象的因子含义,即对因子各维度进行命名;变量共同度检验,变量的共同度越高,说明该因子分析模型的解释能力越高;因子的方差贡献检验,用因子的累计方差贡献率来确定公共因子提取的个数,也就是寻找一个使得累计方差贡献率达到较大百分比的自然数,即最终提取方差贡献大于1的因子作为公共因子。

由于本文的论题是电子商务环境下服务业企业绩效评价指标体系构建,本文主要运用平衡计分卡把评价指标体系分为四个方面,18个二级指标作为18个因子,按照因子分析法来选取有效指标,各项指标在选取时,需要遵循两个原则,一是该指标在以前的研究中出现的概率,二是指标与所要研究的问题的潜在相关性。本文在四个方面的指标的选取上,另外考虑了①全面性,要求所选的指标能反映企业的经营、客户、企业学习与成长、财务方面的状况;②有效性,要求选择那些能够对预测企业的整体状况有指示作用的重要指标;如,若各项指标的双尾T检验的显著性概率小于0.05,则能有效的反映企业的四个方面的状况,反之,则是无效指标,应剔除。③同趋势性,即当各项指标增大时,表示企业的整体状况改善,反之当各项指标减少时,表示企业的整体状况恶化;④可操作性,采用易得到的数据。

2信度、效度、描述性统计、方差和相关分析方法

信度分析是采用一定的方法来衡量回收问卷中各变量的内部一致性,它主要考查的是问卷测量的可靠性,检验每一个因素中各个题目测量相同或相似的特性。本文采用克隆巴赫(Cronbach a)一致性系数检验量表的信度和各分量表的信度。效度分析是采用一定的方法对问卷的理论构思效度进行验证。首先,必须对题目的结构、测量的总体安排以及题目见的关系做出说明,然后运用一定的方法从数据中得出基本构思,以此来对测量构思的效度进行分析。用于评价结构效度的主要指标有累积贡献率、共同度和因子负荷。累积贡献率反映公因素对量表或问卷的累积有效程度,共同度反映由公因素解释原变量的有效程度,因子负荷反映原变量与某个公因素的相关度。描述性统计分析是对各维度中的测量题目的均值、标准差、方差等描述性统计量硕士论文进行统计,了解各维度中题目设置的水平。方差分析又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否具有统计学意义。

方差分析对客观事物数量进行依存关系的分析,主要刻画两类变量间线性相关的密切程度,其两个变量全是随机变量,且处于平等地位。两变量之间的相关关系可以通过绘制散点图或计算相关系数来反映。 3回归模型及其统计检验

现实世界中,一个事物的运动变化,总是与其他事物相关联。其中,有的还存在因果关系,这种因果关系有的是线性的,有的是非线性的。当预测对象与其影响因素的关系是线性的,且只有一个影响因素时,就可以用一元线性回归方法建立其一元线性回归预测模型,来表述和分析其因果关系;当有两个或多个影响因素同时作用于一个预测对象时,则用多元线性回归法建立多元线性回归预测模型。

本文就是以多对一的关系,因此,用多元线性回归模型进行统计检验。对于多元线性回归模型及其统计检验描述如下:

当预测对象y同时受到多个解释变量x1,x2,...,xm影响,且各个xj(j=1,2,...,m)与y都近似地表现为线性相关时,则可建立多元线性回归模型来进行预测和分析,模型为:

3)回归方程整体显著性检验

回归模型的显著性检验包括两个方面,即回归方程的显著性检验和回归系数的显著

性检验。

(1)回归方程的显著性检验

回归方程的显著性检验用于检验被解释变量与所有解释变量之间的线性关系是否显著。回归模型总体函数的线性关系是否显著,其实质就是判断回归平方和与残差平方和之比值的大小问题,可以通过方差分析的思想,构造F统计量来进行检验,F检验是用来检验多元线性回归模型的总体效果。

(2)回归系数显著性检验

回归方程总体显著并不意味着每个解释变量对被解释变量的影响都是重要的,还需要对每个回归系数的显著性进行检验。回归系数显著性检验通过构造t统计量来进行,

4)残差正态性检验

残差e是随机扰动项ε的体现。对残差进行分析的目的是检验随机扰动项是否服从经典假设。残差分析的内容包括残差正态性检验、序列相关检验、异方差检验等。本文应用残差的累计概率散点图进行残差正态性检验。

5)异方差检验

异方差常常表现为残差随某个解释变量取值的变化而变化,因此,检验随机扰动项是否存在异方差可以通过绘制被解释变量与解释变量的散点图来简单的判断。如果散点图呈带状分布,则不存在异方差;如果随着解释变量的增大,被解释变量波动逐渐增大或减少,则很可能存在异方差的现象。实践中,常常使用加权最小二乘法消除异方差。

7)多重共线性检验

所谓多重共线性是指各个解释变量之间存在线性关系或接近线性关系的现象。多重共线性常常会导致回归系数方差增大,从而使得t检验难以通过。用SPSS检验多重共线性共有四种方法:容忍度、方差膨胀因子、条件指数和方差比例。本文选用条件指数和比例方差这两种方法来检验共线性。

(2)方差比例