首页 公文范文 数据分析方法论文

数据分析方法论文

时间:2022-05-21 11:02:22 关键词: 数据分析方法 数据论文 数据
摘要:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。

数据分析方法论文

数据分析方法论文:土工实验数据分析方法探讨

【摘要】土工实验是进行土木工程的重要前提条件,其能够为施工建设提供可靠的数据支持,能够有效防止工程建设中可能存在的潜在危险事故。本文对其数据涉及的内容进行分析,分析了实验准确性的因素,进而提出相应的方法应用,希望可以为土工实验的发展提供借鉴。

【关键词】土工实验;实验数据;数据分析;分析方法

一、引言

在进行实验过程中,由于土体本身所具有的复杂性,土质质检所存在的物理学特性以及采样、运输、存储等等方面所表现出来的特点,都容易对数据造成一定程度的干扰,致使实验的结果出现误差。另外,因为实验本身受到很多因素的干扰,也同样容易发生数据偏差的问题。因此,本文着重从实验数据所涉及的内容,影响实验数据的因素,以及提升实验准确率的角度出发,对土工实验数据分析方法进行探讨。

二、土工试验数据所涉及内容

(一)土的比重实验。土工试验过程中,土的比重实验是非常重要的。一般来说,地域相同或者相近,那么土的比重也将会比较相近。但是,因为在实际操作中,其整个的操作流程比较复杂,所以不同的单位会采用本地所出具的或者考察的相关数据直接进行比重实验,这样容易导致实验数据的误差存在。

(二)土的密度实验。通过土的密度实验可以详细的了解土的组成,可以了解其组成成分的性质,能够为之后的施工提供更多的参考。土的密度与土粒的重量、孔隙体积、孔隙大小、孔隙水重等等内容息息相关,能够反映土的组成和基本结构特征。在进行实验的过程中,要注意尽量避免对取样即时进行实验,最好能够等待土样达到日常状态之后再进行试验,这样可以让土密度实验的结果更加准确。

(三)土的含水量实验。土的含水量实验可以说是土工实验中的核心内容,其实验的情况将会影响到工程地基建设,还会影响到后续工程的稳定性。不同地区的土样其含水量不同,并存在很大程度上的差异性。实验人员在进行取样的过程中,要保证其样品的均匀性,或者具有代表性,否则进行试验所获得的数据就没有任何指导意义,其数据在实践应用中的效率和质量也将会呈现大幅度的下降。

三、土性参数实验结果误差性的原因

(一)土体本身性质导致。依照相关的物理力学和力学性质,我们可以了解到土体的分层具有不均匀性,加上其所处环境的变化,可能发生的雨水冲击、水文变化、其后影响等等语速怒,都会让土体的性质发生改变。这样在进行土工试验的时候就非常容易造成实验结果的差异性,甚至有可能会成为差异产生的主要影响因素。

(二)系统误差。系统误差是由于仪器的某些不完善、测量技术上受到限制或实验方法不够完善没有保证正确的实验条件等原因产生。不同的单位所使用的仪器往往不尽相同,所使用的试验方法也有一定的出入,加上不同的试验方法让土工参数出现离散性,其所实验的数据也就会有所不同。系统误差的存在可以予以避免,其与偶然误差不同,这就需要实验室对设备和系统进行改进。

(三)偶然误差。偶然误差的特点是它的随机性。如果实验人员对某物理量只进行一次测量,其值可能比真值大也可能比真值小,这完全是偶然的,产生偶然误差的原因无法控制,所以偶然误差总是存在,通过多次测量取平均值可以减小偶然误差,但无法消除。偶然误差的存在属于客观存在的现象,其与人为原因所造成的误差有很大的差别,对于两者应当予以区分。

四、土工实验数据分析方法的应用

(一)进行数据检查,果断进行取舍。在进行实验的过程中,如果有明显不符合物理力学性质的值的范围点,则可以通过观察予以了解,实验人员要对其进行细致观察,一旦发现异常立刻予以放弃。一般判断的标准是大部分数值为范围内波动,但是有一点超出正常值或者距离正常值较远,则可以被认定为不合理。在实验数据较多的情况下可以运用3σ法则进行数据之间取舍的考量。在进行实验过程中,存在于之外数值所占比例较少,因此,大于和小于之间数值作为异常处理。

(二)土工实验数据中最小样本数问题。在土工试验过程中,最小样本数问题需要引起人们的重视。实验中的样本数要选取适当,如果样本数过小就会影响实验结果的准确性。但是,样本数的数量并不是随意定制的,其受到多种因素的影响,比如工程规模、工程精度要求、现场勘查情况等等。

(三)土体性质指标的自相关性的问题。根据以往数据实验的关联性,求的往往是其之间的线性相关系数,但是对于其自相关函数通常并没有表现出线性相关,而是指数相关。因此,不能简单依照求相关系数的方法判断其相关性。在进行土工实践过程中,往往可以通过δ对其独立性进行判断。在相关距离 范围内,图形指标基本相关;在此范围外,图形指标基本不相关。但是对于δ事先未知,因此其需要根据样本测值进行求算,一般使用递推平均法对相关距离δ进行计算,并使用间距Z对δ的影响进行综合考量。一般来说,Z /δ的数值越大,其各抽样点的土性越接近相互独立,抽样误差也就越小。

五、结束语

土工试验对于土工建设来说影响较大,其影响因素包括土体本身性质、取样仪器情况、人为因素等,需要对此方面予以重视。对其不合理点来说,可以通过3 原则进行剔除。对于其数据相关性来说,其可以通过迭代求解土性指标相关距离予以解决,通过样本的加权平均来对该区域的平均性指标进行估算。为了让样本能够满足实验需要,可以利用Bayes方法对其土性指标与因确认,从而弥补数目不准确的情况。通过此三个方面对其进行方法的应用,则可以有效提升实验数据的准确性、可靠性,可以让实验的结果更加符合实际需要。

数据分析方法论文:社会调查数据建模及基于超图的数据分析方法

摘 要:针对现今的社会调查数据处理与分析中存在的问题,该文通过三维矩阵建立了社会调查数据的数学模型。将每一题表示为空间中的一个维度,每一张问卷表示成一个矩阵,将多个矩阵叠加即可得到社会调查数据的三维矩阵模型。在建立三维矩阵模型的基础上,可以利用三维矩阵的性质对其进行多种数学处理,也可以采用超图理论对数据进行进一步的分析,大大丰富了调查数据的处理方法。

关键词:社会调查数据 三维矩阵 超图

社会调查是了解各方面信息的重要途径之一,社会调查数据主要是通过调查问卷的方法得到的。由于社会调查数据的维数较高,加上人为主观因素,数据类型主要为二元变量、离散变量、序数变量等为主,所以对于社会调查数据的分析和处理大都基于统计学,只对单一题目进行统计学分析,其分析方法主要是基于题型进行处理的,对于题目和题目之间的关系很少关心[1]。许多数据挖掘算法因为种种限制无法在社会调查的数据分析中得到应用。因为方法的限制,所以现在很多社会调查只能验证事先想好的内容和假设,很少可以对高维数据进行相对复杂的回归分析处理。

根据以上存在的问题,该文建立了基于三维矩阵的数学模型,将单选题、多选题和排序题用向量形式进行表示,每一题定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份问卷的信息用一个M×N矩阵表示。这样表示可以将所有问卷内容当作一个整体,作为后续算法的基础。

1 社会调查数据的特点

通常情况下,社会调查数据特点如下。

(1)相关性。对于一个样本个体而言,它具有本身的多个特征,这些特征之间就具有一定的相关性。对于多个样本而言,个体与个体的特征之间具有相关性。如果样本随时间而变化,那么该样本在不同时刻的特征之间又具有相关性。因此,由于上述多个原因使得社会调查数据具有了复杂的相关性,传统的统计学调查难以解决这样的问题。

(2)离散性。因为社会调查数据是通过自填式问卷、网络调查数据库等方法得到,所以社会调查数据一般以离散变量为主,且这些数据之间只有标示作用,并没有严格的逻辑关系。

(3)模糊性。社会调查数据当中不可避免的会接触到各种表达方式和概念,因此,它具有模糊性。

因为由自填式问卷或结构式访问的方法得到的社会调查数据具有以上特点,所以在实际应用中基于统计学的处理方法只能笼统的显示数据的部分特性,如频数、离散程度等[2]。对于数据之间的关系只能分析出维数极少的大致的关系。

而且利用软件进行数据挖掘时,因为现有的软件中的数据挖掘算法对于数据类型和格式要求较高,所以能应用到的数据挖掘算法很少。就算是数据要求较低的关联分析,其结果也存在大量的冗余。因此,我们需要建立一个合适的社会调查数据的数学模型来完善原先的方法并使跟多的数据挖掘方法可以运用到其中,使得结果更准确。

2 社会调查数据的建模

研究中我们发现,三维矩阵可适用于社会调查数据的建模。

2.1 三维矩阵的定义

三维矩阵的定义:由n个p×q阶的矩阵组成的n×p×q阶的矩阵A称为三维矩阵,又称立体阵。Ak,i,j表示三维矩阵A的第k层,第i行,第j列上的元素。其中n,p,q分别表示三维矩阵的高度,厚度和宽度。

2.2 三维矩阵模型的建立

调查问卷的题目一般有三种类型:单选题、多选题和排序题。这三类题目都可以表示成向量的形式,其中每一道单选题、多选题可以表示成一个向量,排序题可以表示成多个向量组成的矩阵。对于单选题和多选题,可以按选项的顺序可以表示成一个向量,其中选中的项用“1”表示,未选中的项用“0”表示。对于排序题,可以表示成一个n×n的方阵,其中n表示该排序题的选项个数,。这样,每一题就可以定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份调查问卷的信息用一个M×N矩阵表示(M为题目的最大选项数),其在每一维上的选择称之为一个元素,这样每份问卷的信息就包括了N个元素。以第1,2,3题数据为例,其中第1题为单选题选择“B”,用向量表示为一个元素,第2题为多选题选择“ACE”,用向量表示为一个元素,第3题为排序题顺序为CBADEFIHG,用矩阵表示,每一个列向量是一个元素,如图1所示。

那么,假设有一问卷信息用一个大小为M×N的矩阵表示。K份的问卷信息就可以用K个大小为M×N的矩阵表示。将这K个矩阵叠加,形成一个三维矩阵。这个三维矩阵就是我们建立的三维矩阵数学模型,如图2所示。

在图2中我们看到,该三维矩阵数学模型有三个坐标轴,它们分别是题目,人数,选项。题目轴以每一道题为一个单位;人数轴以每一份问卷为一个单位;选项轴的刻度为A,B,C,D,E,F等题目选项,其个数为该调查问卷中选项最多的题目的选项个数。

在此基础之上,这样的三维矩阵具有以下性质。

(1)在题目轴中选取对应的题目,将三维矩阵面向竖切得到截面1(如图2中01所示),截面2表示每一道题所有人选择的信息。

(2)在人数轴中选取对应的人,将三维矩阵横切得到横截面1(如图2中02所示),横截面1表示对应的人选择所有题目的信息。

在得到三维矩阵后,可对它进行像素化处理,置1的元素用黑点代替,置0元素的则空白,在得到像素化三维矩阵后我们可以将三维矩阵沿着人数维度上向下投影,这样就可以得到一个具有浓黑不一的点的平面。通过这些点的浓度,可以知道每一选项选择的人数。接下来我们可用灰度级表示点的浓度,筛选出浓度大于一定程度的点,在此基础上进行后续算法处理。

上述三维矩阵数学模型具有数学三维矩阵的所有性质,可依据调查问卷的需求进行转置,加权、相乘、筛选等数学处理,另外在数学处理的基础上,采用超图理论可以大大丰富了调查问卷的处理方法。

3 基于超图算法的调查问卷分析技术

超图是离散数学中重要的内容,是对图论的推广[3]。超图是有限集合的子系统,它是一个由顶点的集合V和超边集合E组成的二元对,超图的一条边可以有多个顶点的特性,这与一般的图有很大不同。超图分为有向超图与无向超图两类,在无向超图的每条超边上添加方向后得到的有向二元对就是有向超图。超图在许多领域有广泛的应用。

大家可以利用无向超图表示每一道题的选择情况,先将这每一题的每一个选项设成一个节点,然后将三维矩阵从上向下投影,如果某一题的若干个选项同时被一个人选择,就用一条超边包围这些节点,那么选这些选项的人越多,投影得到的超边就越浓。这样就用超图表示了问卷中每道题的信息,可以进行聚类处理。

利用有向超图,可以将关联规则表示成有向超图的形式,在得到了关联规则后,设实际中得到的关联规则的形式为:,前项和后项都是由多个项组成的集合。该文定义一条关联规则由一条有向超边表示,有向超边的头节点表示关联规则的前项,有向超边的尾节点表示关联规则的后项。每条有向超边的头节点和尾节点均可以为多个,如此便成功表示了复合规则,从而可以使用相关算法进行冗余规则检测。

通过基于有向超图的冗余规则检测就可以将关联规则之间存在着的大量冗余检测出,减少挖掘资源的浪费,从而增加了挖掘结果的有效性。

传统的聚类方法都对原始数据计算它们之间的距离来得到相似度,然后通过相似度进行聚类,这样的方法对于低维数据有良好的效果,但是对于高维数据却不能产生很好的聚类效果,因为高维数据的分布有其特殊性。通过超图模型的分割实现对高维数据的聚类却能产生较好的效果。它先将原始数据之间关系转化成超图,数据点表示成超图的节点,数据点间的关系用超边的权重来表示。然后对超图进行分割,除去相应的超边使得权重大的超边中的点聚于一个类中,同时使被除去的超边权重之和最小。这样就通过对超图的分割实现了对数据的聚类。具体的算法流程如下。

首先,将数据点之间的关系转化为超图,数据点表示为超图节点。如果某几个数据点的支持度大于一定阈值,则它们能构成一个频繁集,就将它们用一条超边连接,超边的权重就是这一频繁集的置信度,重复同样的方法就可以得超边和权重。

然后,在基础此上,通过超图分割实现数据的聚类。若设将数据分成k类,则就是对超图的k类分割,不断除去相应的超边,直到将数据分为k类,且每个分割中数据都密切相关为止,同时保持每次被除去的超边权重和最小,最终得到的分割就是聚类的结果。

如图3所示是基于超图算法的选题型调查问卷的分析技术的流程图,主要包括4个主要部分,一是用向量表示调查问卷结果,二是将向量表示的调查问卷转化为三维矩阵数学模型表示调查问卷结果,三是使用超图算法进行优化,四是根据要求显示调查问卷结果。

4 结语

该文针对社会调查数据处理与分析中存在的问题,建立了基于三维矩阵的数学模型,将单选题和多选题表示成向量,将排序题表示成多个列向量,从而每一题可以表示成空间的一个维度,每一个向量就是一个元素,这样每一张问卷就可以表示成一个矩阵,通过将多个矩阵叠加就可以得到三维矩阵。该数学模型可以利用三维矩阵的性质对其进行多种数学处理,如竖切、横切、像素化后投影等。在数学处理的基础上,该文又提出超图理论对数据进行聚类和检测冗余规则的分析。

数据分析方法论文:对企业数据分析与决策支持方法进行研究

【摘要】本文首先对数据仓库的概念和特征进行了介绍分析,对决策支持系统的概况进行了探讨,并对数据决策支持的实现和应用进行了介绍,通过实际应用,决策支持系统可以有效帮助企业进行决策,提高企业的管理效率和管理水平。

【关键词】大型装备制造 项目型制造企业 数据分析 决策支持

在我国制造行业的快速发展下,提升制造企业的管理水平已经成为当前需要重点解决的问题。随着信息技术的快速发展,促进了制造企业数据分析和决策支持的发展。通过创建企业信息管理系统,可以有效提升企业的生产效率,使各个部门之间的工作更加协调。对分散、零碎的信息进行充分挖掘和利用。利用决策模型,对企业生产管理中遇到的问题提供决策支持。

一、基于数据仓库的企业对集成的应用

(一)面向主题性

完成事务型处理的任务是传统操作型数据库进行的数据组织工作,各业务系统间存在相对独立性,按照一定的主题组织数据仓库中的数据。对主题而言,其概念比较抽象,通常情况下,一个主题同时与多个操作型数据库有关系。例如,在确定企业的采购订单时,需要分析供需情况、库存信息、供应商信息等多方面的数据的综合关系,然后做出最终的决策。

(二)集成性

一般情况下,操作型数据库进行事务处理工作与某些特定的应用关系密切,数据库间具有相对独立性,通常具有异构性。抽取、清理原有分散的数据库数据,然后对其进行系统加工、汇总和整理最终获得了数据仓库中的数据,并保证存储在数据仓库内的信息与规范的信息相一致。例如,在查询销售数据时,系统会根据输入的条件要求,进行筛选、整理后提供出最终的决策参考数据。

(三)历史变化的反映

当前的数据是操作型数据库主要关注的,但是数据仓库中还包括很多丰富的历史性信息,系统将企业从过去某一时点(如开始应用数据仓库的时点)到现在各阶段的信息完整的记录下来,企业可以以这些信息为依据,定量分析企业产品未来的发展情况。例如,企业可以通过分析产品上季度的综合销售情况以及市场反映来决策下一季度的生产量。

二、决策支持系统的概况

(一)决策系统的含义

Decision Support System 即决策支持系统,简称DSS,是指对大量数据和数学模型与数据处理模型等有机组合众多模型进行综合利用,通过人机交互功能,帮助企业各级决策者完成科学的决策的新型系统。机器学习(ML)兴起于80年代后期,自动获取知识有了新方法。数据仓库(DW)和数据挖掘(DM)两项新的决策支持技术兴起于90年代中期。数据仓库的发展是以数据库为基础发展的,支持决策是其发展目标。知识发现(KDD)是面向数据库的机器学习方法发展的结果;“数据挖掘”是发现知识的关键步骤。决策的支持也是数据库知识的功能。随着决策支持技术的不断发展,决策系统逐渐完善。

(二)决策支持系统组成部分

R.H.Sprague 提出DSS的构成部分为人机对话系统、数据库与模型库的两库结构。随着决策支持系统功能的增强与扩大,对模型与方法进行分离存储,因此,数据库、模型库与方法库构成了 DSS。近年来,DSS 将人工智能技术、专家系统、知识工程的相关思想方法引进后,以原来的结构为基础,新增知识库,将推理机制引入,最终DSS的四库结构框架形成。

随着决策支持技术的发展提高,决策支持系统的体系结构不断发展健全,传统决策支持系统中的数据库、模型库与方法库、知识库与推理机、数据仓库、OLAP、数据挖掘技术等都是其组成部分,将引进显性知识与隐性知识同时引进到决策支持过程中是这种体系结构最关键的特点,保证推理的结果更科学合理,为决策层做出决策提供更高价值的参考依据。

三、实现数据分析与决策支持方法

(一)建立制造业决策模型库

当前比较常用的决策模型系统如GIS、PDM、ERP、CRM、SCM 等。在选择决策系统时,需要根据企业的发展战略来进行选择。通过决策模型,可以为企业的生产经营提供指导,使企业可以更好的把握市场、顺应市场。企业用户决策分析的存放模型是决策模型库。进行决策的模型的建立是以大型制造企业生产过程中的材料采购、库存管理、产品生产、市场营销、财务管理、人力资源管理、研发设计、质量管理、售后服务等方面的数据为依据。决策模型被授予一定程度的权限,对数据进行访问。然后以数据仓库中获取的数据为依据,对用户指定的目标进行决策支持。系统描述现有模型的组成元素与其组成结构的知识,模型构造过程中的各类推理算法被获取。以模型构建推理算法为基础,使匹配模型的框架由新问题的属性值填充,最终决策问题模型得以建立。

(二)实施制造业决策分析

对决策模型进行求解的过程就是决策分析的实施。通过理解决策问题获得用户需要决策的目标、意图等方面信息,然后利用合适的决策模型分析获得的数据,再根据规则与模型的求解算法获得有价值的决策意见,将其提供给用户。本系统规范描述每个模型包含的求解算法利用含有通用求解算法的模型很容易求解问题。但是如果没有求解算法或者不确定利用哪种算法进行求解,平台依据以前比较成功的相似的案例,将范例的求解方法求解问题。平台会详细记录取得较好决策效果的案例,并用数据层的公用数据库进行存放,这样能够及时调用成功的相似案例进行决策分析问题的求解。

(三)协作决策支持的多环节性

通常企业决策不会通过利用单一的决策模型得到。企业管理的决策方案案是利用了多模型的协作来实现决策的。协作决策的实施系统从两个方面着手。

(1)为实现有效的智能理解需要利用人机智能交互接口实现,分解复杂的问题,最终可以得到结构有序的子问题、与决策问题有联系的事实与数据、求解方案等;

(2)参与决策的模型可以利用平台进行调用,与决策相关的模型的选择可以通过分解的子问题实现,为了保证多个模型为特定的决策目标服务需要采用协调的合作机制。

四、结语

当前,国内制造普遍存在数据分析能力差,决策能力不足等问题,同时这也是制约企业持续、稳定发展的一个主要因素。本文首先对数据分析和决策支持的概念及构成进行了分析,并提出了一种基于数据分析的决策支持系统方案,为制造企业的信息化发展提供了指导。

数据分析方法论文:浅析电线线缆直流电阻测试方法与数据分析研究

摘要 :电线线缆的导体直流电阻在相关的指标中比较重要,对其进行具体的测试时保证电线电缆正常工作的重要保证,也是促进当下电线电缆发展的中心环节。当前在电线电缆的直流电阻测试中主要是采用双臂直流电桥的方法,这一方法在具体的测试中具有优点,但是也因为设别和测试过程本身的问题导致的很多漏洞的出现,本文就测试过程中的相关测试方法进行了解,并在数据分析的基础上指出这种方法当下面临的问题以及改进的措施,从理论上完善双臂直流电桥测试直流电阻的方法。

关键词 :电线电缆 直流电阻 测试方法 存在问题

1、 电线线缆直流电阻测试问题分析及解决措施

1.1 电线线缆直流电阻测试问题分析

电线线缆的导体直流电阻测试在当下的输电系统的发展中意义重大,双臂电桥在测量1欧姆以下的电阻值方面具有重要的应用。

《电线电缆电性能试验方法第4部分:导体直流电阻试验》3.4条对具体的这方面测量内容进行了标准化确定:在四段测量夹具的处理中,应该在注意电位接点跟电流接点之间的测量,要保证相应的电流、电位接点之间的距离要比断面周长的1.5倍大。但是在当前的测试设备的生产中,大部分厂家并没有考虑到这方面问题,在相关的产品使用中并不能实现距离的自由调试,而是跟绝缘材料之间连接在一起,这种情况就不能够满足当下电线线缆直流电阻的测试要求,这方面的问题也是当下亟待解决的。如果使用这种产品仅仅能够实现对断面周长在1.5倍情况下的测量工作,在准确性的控制方面还比较成熟,但是如果电线线缆的截面不在相关的标准范围之内,相关的测量结果就会出现很多问题,准确性也就受到很严重的影响这样的实例在现实的测量中有很多,比如:假设夹具电位接点与电流接点间距为60mm,那么它所对应的所能准确测量的导体断面周长最大为40mm,从中能够O到电线线缆的截面面积,具体数值约为127mm2。也就是说用此夹具来测量截面积为127mm2以上的导体电阻时不能够实现准确性的完全控制。?除此之外,在夹具夹持一些截面不规整的电线线缆的时候,特别是像大截面绞合成型电线线缆,这种电线线缆截面通常为扇形、弧形或三角形。如果出现夹持时电流接点夹头接触情况正常,而电位接点夹头接触不正常的状况下,甚至当电流接点夹头已经加紧,而电位接点夹头却还难以与导体接触,都无法完成正常的测量工作。在这样的情况下还坚持使用,就会造成夹具的磨损、变形,上述的状况也就会出现。

1.2 电线线缆直流电阻测试问题解决措施

在以上具体的测试分析中,本人针对实际的测试过程,提出了以下的改进方法:第一是针对电流夹具的调试问题,将导体夹具上电流接点夹头与电位接点夹头间距设置为自由变化的形式,测量人员在一般的情况系测量长度为1m的电线线缆的电阻,这种情况下可以将电线线缆夹具上电位接点夹头可固定为1m,而将电流接点夹头设计为可在底座上自由移动的结构,进行底座的合理调整。如果做到“每个电位接点与相应的电流接点之间的间距不小于试样断面周长的1.5倍”的情况,就能够对上述的状况进行解决。第二是进行解决电位接点夹头与导体不能良好接触的问题。这方面的问题也很好解决,在设计中可以将夹具上电流接点夹头与电位接点夹头设计为独立夹紧与松开的结构。在这种情况下能够保证电流接点夹头与电位接点夹头同时与导体紧密接触,并且能够对因长期使用夹头磨损、变形而不能夹紧的问题进行预防。

以上分析中可以发现,在相关的电线线缆测试中,需要对具体的测量标准进行数据的精确控制,也是保证测量精确度的关键,相关的数据分析中要以标准作为中心。注重在夹具方面的分析,并加强对具体夹具位置的设计,另外还要考虑到设备的使用周期,在维护设备方面制定合理的标准,保证测试的整个过程。

2、 电线线缆直流电阻测试中温度对测量的影响

大部分人都知道,温度在导体的电阻影响因素中占据重要的地位。gb/t?3048-2007中对导体直流电阻测量的温度范围进行了规定,如果温度达到不到相关的要求,测试人员一般情况下会人为改变环境温度,空调调节的方式在调试中的到了广泛的应用。但是在使用空调的时候会出现检流计滑动的现象,这就就不能够在稳定的条件下完成测量。这种情况下温度在变,也就导致导体电阻也会慢慢发生变化,而检流计的灵敏性也是一个重要问题,所以这种情况下的测量一般不允许出现环境温度变化的情况,要等到环境温度稳定的时候才能够完成测量。而且试样一定要在测量环境中保持足够长的时间,使其自身温度与环境温度达到平衡,因为当测量人员在调节环境温度时,这个过程中的试样温度并不会与环境温度出现一样的变化值,因此在测量过程中,温度变化的现象也时有发生。并且空调不应对着测量装置,以免检流计难以稳定。不管怎样说,测量中一定要对温度进行合理的分析,只有摆脱温度的限制,才能够实现测量的准确性。

3、 接触电阻及测量电流对测量的影响

由于测量电路连接电线的接触电阻侧面按键之间的问题会导致测量结果的变化,一定程度上,一定要确保电缆侧键和可靠的接触才能够保证测量结果的正确性。测量者经常使用的导体电阻不同的截面积,但是电流测量的大小确实相同的,这方面的取值不太合理。测量电流的保证实在最低灵敏度的前提下,应使用比较小的电流,电流过大容易产生过多热量,从而使阻力变大,测量应在最短的时间内完成,时间太长的情况下,也会让电线线缆产生热量。

4、结论

在电线电缆导体直流电阻测试过程中要对测量工具进行不断地优化,又要根据具体的数据分析,对相关测试数据范围进行控制,这样会取得很好的测量效果。另外要保持客观严谨的科学态度,在测量过程中保持清醒的头脑,对具体的流程进行精确的控制,这样才能够得到准确、可靠的数据。

数据分析方法论文:验证型实验的数据分析处理方法探讨

【摘 要】 本文以大学物理实验中典型的验证型实验――牛顿第二定律的验证实验为例,讨论了验证型物理实验中的数学处理方法,得出该类实验中,数学处理方法不但要得出所验证的物理规律的数学式,而且更重要的是要通过计算物理量的相关系数确证该数学式所确立的物理规律成立。

【关键词】 验证型实验 数学处理

物理实验中,验证型实验和研究型实验都是非常重要的两类实验。验证型实验是对已建立的物理规律的验证,研究型实验是通过实验得到物理规律,这两类实验虽然实验目的不同,但从数学处理方法上来看,具有相似性,都是通过实验数据分析确证物理规律或得到物理规律,所以对实验数据的分析处理方法是否得当就显得十分重要。下面以一个典型的验证型实验的数据处理为例进行相应探讨,以期望得出相对合理和妥当的实验数据处理方法。

以大学物理实验来说,验证型实验较多,诸如牛顿第二定律的验证、弹性碰撞实验等等都属于此类实验,其中牛顿第二定律的验证实验为该类实验的典型实验。牛顿第二定律的数学表达式是,力与加速度的大小关系可以表达成,要验证这个规律,就是给物体加一个大小为F的力,对应产生一个大小为的加速度,得到一个测量点,通过改变力,得到n个测量点后,即可通过适当的数学方法验证这个关系的成立。

类似这种线性物理规律,其数学模型都可以归结为的形式。要得到这个线性关系,就是要得出和。通过测量n组和的值,即、、……、、……、,在X―Y平面中得到n个测量点。若不考虑实验测量的系统误差,则测量误差应当服从高斯分布,反应在X―Y平面中,既是这n个测量点应当均匀地分布在所求表达式两侧,对第i个测量点,误差为,n个测量点导致的总体误差是最小的。若任意给一个直线,则一是测得到的这n个点不再均匀地分布在直线两侧,二是这n个测量点产生的总体误差水平将增大,甚至可以达到无穷大。由此可知,所求直线即是使得n个测量点的总体误差最小的那条直线。总体误差可以写成,但由于误差服从高斯分布,导致理论上而无法通过此求和值衡量总体误差水平。为使其不因为正负抵消而无法衡量总体误差水平,只要使得所有误差均为正再求和即可,故可用残差来衡量总体误差水平,虽然残差不再是总体误差。使得残差取最小值的和,即为所求直线的和。此即最小二乘法的数学思想。据最小二乘法处理,所求和即是使得取最小值的和,即有,解此式,得

将测量值供稿,即可得到所求和。通常大学物理实验中的处理方法,得到和,即是验证了[1]。但其实这是不太恰当的。

验证型或者研究型实验,特别是验证型实验,最关键的是需要解决两个问题,一是找出所要验证的关系,第二是要验证得出的关系的确成立,而第二点才是最重要的关键点。即使得出关系,但如果确证关系不成立,则第一步的工作就变得毫无意义。实际上,任意给出一组、、……、、……、,都可以根据最小二乘法得到和,即得出,但并不意味着此式的确成立,不能确证物理量和的确存在这样的数量关系,并没有检验此物理规律存在。因此,验证型实验做到这一步并不算已经验证被验证的物理规律成立,还需要研究和的相关性,通过计算相关系数,据的大小来检验和是否的确相关。

总之,验证型实验,是对物理规律的验证,最重要的是确证被验证物理规律成立,得出相应物理量间的数学表达式并不能说已经验证了相应物理规律的成立,最重要的是要通过计算物理量间的相关系数来确证所得物理规律是否成立。

数据分析方法论文:水轮发电机组高精度水平测量和数据分析方法

摘 要:水平度是机组安装的重要检测项目,有很多种测量仪器和测量方法。为了便于分析水平测量的数据结果,利用计算机软件,实现测量结果的可视化。本文分析了一些高精度水平测量的方法和数据分析方法,对提高机组安装精度和水平可以起到一些指导作用。

关键词:水平测量;精密水准仪;水平仪;CAYERE法

随着近些年来巨型机组越来越多,尺寸越做越大,机组安装的精度要求也随着加工制造水平不断提高。水平度作为水轮发电机组安装过程中非常重要的检测项目,测量方法和数据分析手段也在不断的创新,以适应高精度的测量要求。

水平度反映了被测工件面上各点相对于水平面的高低关系,表示方法一般有两种:一种是直接测量两点高程差的绝对高差值,单位有mm等,另一种是两点之间高程差除以两点之间距离的相对高差值,单位有mm/m、角秒(″)等。测量绝对高差时主要采用测量学方法,常用的仪器有水准仪、带测微器的精密水准仪、电子水准仪、流体静力水准等。测量相对高差主要采用机械工程测量方法,常用的仪器有框式水平仪、合像水平仪、电子水平仪等。

一、基于绝对高差值的测量方法

机组安装中测量绝对高差最为常用的是光学水准仪,适用于测量视距大于水准仪最小焦距(一般为1.5m左右)的情况,使用任何水准仪进行精密水平测量时,都必须注意以下事项:(1)水准仪使用必须具备的环境条件。目前常用的水准仪都是自动安平水准仪,通过自动安平补偿器使视线水平时标尺上的正确读数通过补偿器后仍旧落在水平十字丝上。自动安平补偿器的灵敏度非常高,有轻微振动时十字丝都会出现晃动。所以在使用时一方面要保证仪器的支架要十分稳固,不允许有丝毫晃动,另一方面应避免周围环境中风力、交叉作业的影响;(2)水准仪距离测点的距离尽可能接近。根据相关工程测量规范,一、二等水准测量时i角(仪器水准轴与视准轴在铅垂面上投影的交角)误差必须调校至15"以内。即便按此i角允许误差要求,两测点视距之间每相差1m产生的测量误差为:1000×tan(15″)=0.073mm,在机组安装中已经属于较大的测量偏差了。只有测点之间视距相等,由i角产生的误差在高差计算中相互抵消,例如测量两点间高差时,可以选择放置在两点的垂直平分线上,在测量座环、底环等大型环形工件的水平时最好将仪器放置在中心位置;(3)立尺时必须确保水准尺垂直度。以1m的视线高为例,水准尺每前后倾倒10mm产生的高程差影响为1000×(1-C0S(10/1000))=0.05mm。为消除水准尺垂直度的影响,应在测量过程中减小视线高度,使用深度尺、钢板尺等小尺寸量具作为标尺,或者使用带有水准气泡的变形监测专用铟钢尺。

(一)普通水准仪配合游标卡尺测量法

将水准仪安平于可观测到所立游标卡尺的适宜高度,为保证垂直度和稳定,可将游标卡尺靠在磁性表座上,底部与待测面贴紧。读数时观测者通过水准仪指挥把尺者缓慢微调游标,使游标的某一刻度线重合于水准仪十字丝的水平中丝,此时游标卡尺的读数即为该点的水准仪读数。每个测点读数时游标应对准同一刻度,对比相互之间的读数差值即绝对高差。此方法测量的读数精度一般为0.02mm。

(二)带测微器的精密水准仪测量法

精密水准仪一般配备了光学测微装置,将配套水准尺上的最小分化进行细分,测定小于水准尺最小分划值的尾数,进而提高在水准尺上的读数精度。一般精密水准仪将水准尺10mm分划成100格,可以读到0.1mm,估读至0.01mm。德国蔡司厂生产的Ni004、Ni007等精密水准仪则是将5mm的最小刻度分划成100格,可以读到0.05mm,估读至0.005mm。精密水准仪读数时需要通过测微螺旋上下微调望远镜的十字丝来对准同一刻度,此时测微器的读数差即为绝对高差。

(三)电子水准仪

电子水准仪是以自动安平水准仪为基础,在望远镜光路中增加了分光镜和探测器(CCD),并采用条码水准标尺和图象处理电子系统构成的光机电测一体化的高科技产品,与传统水准仪相比读数客观、精度高、速度快、效率高等特点。采用普通标尺时,又可以像一般水准仪一样使用。目前市场上常见的天宝DiNi03、徕卡BT28-DNA03等电子水准仪读数分辨率均达到了0.01mm。

(四)流体静力水准测量法

液体静力水准多用于高程变形监测等精密工程测量作业,由于它具有高精度、自动化、长期多点同时测量、安装简单的特点,可以引入到水平测量中,特别是座环、蜗壳浇筑过程中的监测。

二、基于相对高差值的测量方法

测量相对高差值一般使用各种水平仪,其中合像水平仪在精密水平测量中最为常用,使用水平仪测量时,应注意以下事项:(1)测量前应认真清洗测量面并擦干,检查测量表面是否有划伤、锈蚀、毛刺等缺陷;(2)水准器内液体对温度影响变化较大,因此,应注意手热、阳光直射、哈气等因素对水平仪的影响;(3)读数时,应在垂直水准器的位置上进行读数,以减少视差对测量结果的影响;(4)测量时应检查零位是否正确。操作时可以通过翻转测量法获得准确读数,消除零位误差,如果零位偏差较大则需要使用调整针对零位进行校正调整。

(一)水平梁测量法

水平梁测量法是经典的水平测量法,制作适当长度的平梁,加大水平仪测量的距离。在中间的顶部焊接一块经过精细加工的座板,用以放置水平仪。在两端的底面上安装三个球形头螺栓支撑,三个支点所在的平面应调整至与座板顶面平行。操作时为了消除水平仪及梁的误差,水平仪在梁上的位置必须固定,水平仪与梁要一起调头,取平均值计算的方法计算水平度误差。只要平梁刚度足够,跨距适合,把水平仪放在梁上就可以直接测量大尺寸平面上两点的水平度误差。

(二)“CAYERE”法

针对水平梁法长度固定,无法准确反映水平波浪度的情况,可以采用首尾衔接多点连续的测量方法。对于需要测量座环、底环、大轴法兰等大的环形面,可以沿圆周方向连续测量,可以得到一条反映圆周水平波浪变化的曲线,此方法称为“CAYERE”法,由ALSTOM在三峡使用后,国内很多电站都进行了推广和尝试,收到了良好的效果。

(三)网格法

对于设备基础等比较大的平面,可以采用“网格法”,将测量面划分成矩形方格网,用水平仪测量每条矩形边的水平值,从而得到一个反应水平趋势变化的曲面。

三、水平测量数据分析方法

水平测量的数据分析主要用来反映高低变化的趋势,以便分析不平度产生的原因,采取相应的处理措施。为反映高低变化的趋势,需要先将测量数值转化成相对于某一点的绝对差值,然后利用计算机软件方便地呈现出来。

用EXCEL“图表法”绘制趋势线。EXCEL是比较常用的办公软件,在线状或环形的连续测量情况可以直观的反映水平变化情况。下表1是某大型电站的分瓣座环组装过程中的某次测量结果,采用的设备为蔡司NI007自动安平水准仪,测微器将5mm分成100份,测微器读数的单位为0.005mm,各点与1#测点的高差均可用EXCEL的公式计算功能方便的计算出来。

四、结束语

本文所述的水平测量方法及数据处理方法,在很多电站机组安装调整中起到了良好的指导作用。计算机的运算反映的是数据可视化后的趋势,真正数据的准确度取决于测量的精度,因此,无论使用什么仪器或软件,都需要通过发挥人的主观能动性,积极探索实践,消除仪器自身带来的各种误差和人为读数误差,这才是提高安装质量的关键。

数据分析方法论文:大数据分析的方法及其在情报研究中的适用性初探

摘 要:对基于数据或信息分析的情报研究来说,大数据分析方法带来了新机遇。文章在现有研究的基础上,先梳理了基于数据、流程及信息技术三种视角的大数据分析方法,并从中归纳出了面向统计、挖掘、发现、预测与集成等5种分析层次的17种相关研究方法。接着探讨了大数据分析方法在情报研究的适用性,分别找出10种可直接移植的方法、2种调整后可移植的方法、2种不适用的方法、3种需要继续研究或关注的方法。

关键词:大数据 大数据分析方法 情报研究 适用性

大数据分析(Big Data Analytics,BDA)是以“深度的发现分析、引领行动”作为目标的工作[1-2],它包括由多个任务组成的高度重复执行的步骤[3-4]。BDA通常要集成多种分析技术与软件工具,以便让海量数据的处理及分析变得更加容易,从数据中提取有用信息并形成结论,用来验证、指导及规范组织或个人的决策行动;BDA的执行过程一般包括问题需求及假设提出、数据获取及记录、信息抽取及清洗、数据整合及表示、选择建模及分析方法、结果诠释、评测结果有效性及监控等几个阶段。从以上BDA的定义及过程来看,BDA与情报学领域中的情报研究(也称情报分析)在本质上是一致的,两者至少在方法与技术(以下简称方法)上可以相互借鉴或补充。本文基于情报学的视角,关注哪些BDA方法可以为情报研究提供借鉴,并解决情报研究的相关问题。因此,本文首先概略总结BDA的方法体系,然后探讨BDA方法在情报研究中的适用性。

1 大数据分析的方法分类

到目前为止,尚没有公认的BDA方法的分类体系,甚至对BDA包括哪些方法,也有不同的认识。本文首先综述现有的相关研究,并以此为基础提出我们的分类体系。

1.1 相关研究

不同学者对BDA方法的看法各有差异,概括起来,主要有三种分类体系,分别是面向数据视角的分类、面向流程视角的分类以及面向信息技术视角的分类。

(1)面向数据视角的BDA方法分类。这类研究主要是以BDA处理的对象“数据”作为分类依据,从数据的类型、数据量、数据能够解决的问题、处理数据的方式等角度对BDA方法进行分类。

Power[5]依据分析需求将数值型数据的分析方法划分为三类:①若是模式理解及对未来做出推论,可采取历史数据及定量工具进行“回顾性数据分析”;②若要进行前瞻及预测分析,可采取历史数据及仿真模型进行“预测性数据分析”;③若要触发事件,可采取实时数据及定量工具进行“规范性数据分析”。美国国家研究委员会在2013年公布的《海量数据分析前沿》研究报告中提出了七种基本统计数据分析方法[6],包括:①基本统计(如一般统计及多维数分析等);②N体问题(N-body Problems)(如最邻近算法、Kernel算法、PCA算法等);③图论算法(Graph-Theoretic Algorithm);④线性代数计算(Linear Algebraic Computations);⑤优化算法(Optimizations);⑥功能整合(如贝叶斯推理模型、Markov Chain Monte Carlo方法等);⑦数据匹配(如隐马尔可夫模型等)。

针对非纯粹的数值型数据,Li、Han[7]梳理了面向“时空数据”(Spatiotemporal Data)的BDA方法,通过对动态数据挖掘出主体的预测性,如运用物理工程领域的傅立叶变换(Fourier Transform)及自相关匹配(Autocorrelation)侦查某一时间区段的信号、发生的事件或生物基因中的周期性节律,也可运用时间序列方法预测地点位置的变化;魏顺平[8]以教育领域为例,梳理了面向学生与学习环境的“学习分析方法”(Learning Analytics),此方法集成了内容分析、话语分析、社会网络分析、统计分析、数据挖掘等多种方法,从中挖掘学习的各种语义关系,并回答“谁在学、学什么、怎么学、学的结果如何”等问题,为教学与优化学习提供参考。

Mohanty等人[3]从数据获取(Data Ingestion)角度,依照处理的数据量从小至大的顺序,区分出八种分析方法:①流分析(Streaming Analytics),以预定模式及时处理数据流;②高速的数据采集(High Velocity Data Ingestion),不转换任何格式,可稍晚处理; ③链结分析(Linkage Analysis),构建不同数据源的关系与链接;④罕见事件侦查(Rare-Event Detection),从庞大数据集中寻找特定模式;⑤数据聚合(Data Mash-Ups),需要对数据属性发展故事线或链接关系进行分析;⑥文本分析(Text Analytics),如观点挖掘或社会网络分析等;⑦时间序列分析(Time-Series Analysis),通过模式侦测及事件发生概率来处理时空数据;⑧数据辩论(Data Forensic),用于数据科学家探索大规模数据集。

Chen等人[9]认为,在商业智能分析发展的过程中,商业智能分析经历了从处理结构化程度较高的数据、到处理网络上半结构化数据、再到处理移动数据的发展,涵盖了五类核心的分析方法:①数据分析,涉及数据仓储、ETL、联机分析及数据挖掘等分析技术,可应用在时间序列挖掘、网站挖掘、空间数据挖掘等;②文本分析,涉及信息检索、查询处理、相关反馈等分析技术,可应用在QA系统、观点挖掘、多语义分析、可视化分析等;③网站分析,涉及信息检索、网络爬虫、日志分析等分析技术,可应用在云计算、社会网络分析、网站可视化等;④网络分析,涉及信息计量、引用网络、数学网络模式等分析技术,可应用在链结分析、社区发现、社会影响力及扩散模式等;⑤移动分析,可应用在移动通讯服务、个性化分析、游戏营销分析等。

(2)面向流程视角的BDA方法分类。这类研究主要是依据BDA的步骤和阶段对BDA方法进行分类。

美国计算社区协会出版的《大数据的机会与挑战》白皮书指出BDA是一个多阶段任务循环执行过程[4],从整体看,其分析的过程包括了五个阶段,每一个阶段都包含该阶段需要使用的方法:①数据获取及记录,从各种感知工具中获取的数据通常与空间时空相关,需要及时分析技术处理数据并过滤无用数据;②信息抽取及清洗,从异构数据源抽取有用信息,并转换为结构化的格式;③数据整合及表示,将数据结构与语义关系转换为机器可读取、自动解析的格式;④数据建模及分析,从数据中挖掘出潜在规律及知识,涉及可扩展的挖掘算法或知识发现等方法;⑤诠释,为了让用户容易解读分析结果,可视化分析技术变得十分重要。此外,严霄凤、张德馨[10]依照搜集、分析到可视化的流程,梳理了适用于大数据的关键技术,包括:遗传算法、神经网络、数据挖掘、回归分析、分类、聚类、关联规则、数据融合、机器学习、自然语言处理、情感分析、网络分析、空间分析、时间序列分析等多种方法。

(3)面向信息技术视角的BDA方法分类。这类研究强调大数据技术本身涉及到的新型信息技术,将大数据处理架构、大数据计算模式、大数据系统等作为BDA方法分类的依据。

孟小峰、慈祥[11]着眼于大数据处理框架,梳理了数据抽取与集成、数据分析及数据解释所使用的分析方法,在数据抽取与集成方面,可区分为基于物化(Materialization)或ETL的方法、基于联邦数据库或中间件的方法、基于数据流的方法以及基于搜索引擎的方法等四类;在数据分析方面,传统的数据挖掘、机器学习或统计分析面临数据规模、算法调整等困难,需进一步发展;在数据解释方面,引入可视化技术或交互式的数据分析过程,有助于用户理解分析结果。覃雄派等人[12]认为,非关系数据管理(如MapReduce)扩展了数据分析的多维视角,使数据分析的生态系统从“大量数据的移动”转向“直接对数据进行分析”。

2012~2013年在印度召开了两次BDA国际研讨会[13-14],会上分别就BDA中的机器学习面临数据规模与多维度问题、可扩展的机器学习算法(如随机映射、随机梯度下降等)、机器学习在MapReduce的应用、社交媒体数据挖掘(如话题检测与跟踪、地点推理、语义连接等)、高维数据降维分析(如主成分分析、因子分析、经典相关分析等)、图像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及图像比对分析(如特征提取、Iterative Methods)等进行了探讨。2013年IEEE计算机协会在美国召开大数据国际研讨会,BDA结合MapReduce、Hadoop等模型的分析方法仍是主流,研究的内容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

1.2 BDA方法的分类――面向层次的BDA方法框架

上述三种视角的BDA分类各有特点,都有一定的道理。从面向数据的视角来看,BDA方法正从统计(Statistics)转向挖掘(Mining),并提升到发现(Discovery)和预测(Prediction)。基于流程的BDA分类则更能反映BDA过程的集成性(Integration),也就是说,在完成一项分析任务时,需要综合使用多种方法。从面向信息技术的BDA分类中可以看出,这种分类方式强调使用新技术对传统数据处理方法进行改进和创新,同时更重视新型系统架构与分析方法的集成,例如,各种数据挖掘算法的MapReduce化,就是这方面的典型实例。

本文认为,如果综合上述三种分类体系中体现的层次性,将可以更准确描述BDA方法。在此,本文提出一个面向层次的BDA分类框架,将BDA方法分为统计、挖掘、发现、预测及集成五个层次,并初步归纳出17种BDA相关方法(见表1)。

2 BDA方法在情报研究中的适用性探讨

如前所述,BDA与情报研究在本质上有共同之处,BDA方法可为情报研究提供借鉴,因此,探讨BDA方法对情报研究的适用性就很有必要性。以下综合考虑方法本身的完善性及可操作性、情报研究的分析对象特征、方法的可移植性[15]等因素,对本文所列举的17种面向层次的BDA方法在情报研究中的适用性进行分析。

2.1 可直接移植的方法

可直接移植方法是指这些方法的原理、流程、算法等可以直接应用于情报研究,用来对情报研究的数据源(如科技文献、网络资源等)进行处理,解决情报研究过程中的一个或几个步骤中要解决的问题。在本文所列举的17种面向层次的BDA方法中,数据挖掘、文本挖掘、知识发现、观点挖掘、话题演化分析、多元统计分析、时间序列分析、海量数据的基本统计方法、高维数据降维分析方法、多源数据融合方法等10种方法均属于可直接移植方法,其中有些方法在情报研究中已经有多年的应用历史。

(1)数据挖掘与文本挖掘。数据挖掘与文本挖掘是不同概念,两种方法分别使用不同的发现技术,文本挖掘属于基于计算机语言学及统计方法的发现技术,用来揭示文本中的词与句法特征;数据挖掘以数据库中的大量结构化的数据挖掘为基础,用来揭示数据中潜在的、可能的数据模式及关联规律[16]。在情报学领域的实践应用中,数据挖掘多应用在图书馆自动化技术与服务方面,例如,馆藏采购决策、个性化服务、信息检索、读者管理、馆藏布局等。文本挖掘在情报研究的价值在于弥补了情报学专门分析方法对科技文献内在知识挖掘不足的缺欠,例如,祝清松、冷伏海[17]为了解决引文分析方法无法揭示论文的研究内容这个问题,提出引文内容分析,先建立基于规则的引文内容抽取来识别引用句,再通过基于C-value多词术语识别算法找出高被引论文主题,相比于引文分析,这种方法较能提供客观的语义信息与文献之间的语义关系。

(2)知识发现。情报研究中所说的知识发现,主要是指基于文献的知识发现,例如,张树良、冷伏海[18]在共词、共引、文本挖掘等方法基础上,提出了“基于文献的知识发现”,包括:基于相关文献、基于非相关文献及基于全文献三种条件下的知识发现,完整揭示文献的知识结构与演化情况。在网络环境下,李楠、张学福[19]认为关联数据的RDF数据模型、数据访问机制、URIs及自描述数据等规范所形成的数据共享环境,为知识发现提供了新的研究潜力,包括知识发现的范围被扩展成全球数据空间、高效率理解及处理数据间的语义关系等。简言之,知识发现从不同数据源之间的复杂关系中获得隐含的知识或规律,甚至可对未来进行预测。

(3)观点挖掘与话题演化分析。观点挖掘与话题演化分析两种方法实际上是数据挖掘及文本挖掘的具体及深化应用。观点挖掘主要有三种挖掘任务:情感分类、基于特征的观点挖掘、比较语句和关系挖掘[20],例如,黄晓斌、赵超[21]通过对网络舆情信息的文本挖掘,找出不同民众对某一社会事件的情绪、态度及观点,再通过关联分析找出网络舆情信息的各种关联性。赵洁、温润[22]认为微博情感分析的关键是观点句识别,并根据文本特征的差异性,提出了基于新词扩充和特征选择的观点句识别方法,即先扩充情感词典来提高分词准确率,再结合微博特征进行句子选取。话题演化分析方法是近年文本挖掘的研究热点,借助不同的话题模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,获取文本中的一组词语,表示为某一话题的集合,再引入时间信息模拟该话题随着时间推移所表现的受关注程度及关注点的变化[23]。又例如,贺亮、李芳[24]利用LDA模型抽取科技文献中的话题(即主题词),再计算话题的强度与内容演化,从而区分热门与冷门话题及其历年特征词的演化趋势。

(4)多元统计分析与时间序列分析。多元统计分析与时间序列分析两种方法也是情报研究常见的定量分析方法[25],前者研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律,后者则是基于随机过程理论和数理统计学方法,研究动态数据序列的规律性。这两种分析方法的一个重要特点在于能基于历史数据的变化,评价事物现状或预测事物未来的发展。

(5)海量数据的基本统计分析方法。海量数据的七种基本统计分析方法适用于情报研究的原因是,专家们普遍认为,在现有硬件技术条件下要开发一个海量数据分析系统的难度过高,且高性能计算领域也面临许多困难,因而转向寻找共通的基础性计算方法来帮助运算[6],同时这些统计方法也经常应用于数据挖掘或文本挖掘。对情报研究来说,处理的数据量不及高性能计算领域的海量数据,因此可以容易地应用这些基本统计分析方法。尽管如此,随着情报研究处理的文本量增加,包括文献计量或信息计量方法在内的定量分析方法,仍然要经常借鉴基础性的计算方法,并进行公式改进。

(6)高维数据降维分析方法。高维数据降维分析方法反映了海量的数值型数据在数据缩减的重要性,常见的降维(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相关分析、独立成分分析、投影寻踪等[26]。高维数据经常存在大量的弱相关内容或噪音,通过线性(如主成分分析、典型相关分析等)或非线性(如投影寻踪、核方法等)映射可以将数据样本从高维空间映射到低维空间,从而提高机器学习的效率[27-28]。情报研究在处理文本语料时,广泛使用基于向量空间模型来表示文本,形成的高维特征集会对文本分类或机器学习的效果产生很大影响,通过特征选择(如特征频率、互信息等)进行特征抽取(如PCA、LSI、NMF等),转换成一个低维的特征集来提高训练效果,是非常必要的[29]。

(7)多源数据融合方法。多源数据融合方法是解决大数据环境下异构数据整合而提出的方法,例如,为了解决不同研究阶段产生的各类科学数据集成问题,白如江、冷伏海[30]认为解决关键在于中间件构建,例如,通过基于XML模型将异构数据源的元数据映射到全局视图,解决了不同数据源的关系描述问题,并提供用户可灵活订制查询规则;但基于XML模型只能提供语法层次的整合,为了提供数据在语义层次的整合,可通过基于语义模型对XML的对象进行分类,在对象模型的基础上生成逻辑规则,揭示隐含在科学数据中的语义信息。此外,也可以通过基于物化或ETL方法、基于数据流方法或其他方法对异构数据源中的数据抽取出实体与关系,再进行数据集成或数据清洗[11]。多源数据融合方法是进入数据分析之前的重要任务,对情报研究来说,需要多种来源支持情报分析工作,包括同型异源信息、异质异构信息、多语种信息等,都需要通过异源信息字段的映射、拆分、滤重、加权等进行融合分析[31]。

2.2 调整后移植的方法

调整后移植的方法是指其在原本的领域已经成功应用,但由于该方法最早或成功应用的领域在任务需求、数据处理、分析过程有自身的特点,若移植到情报研究时,需要根据情报研究自身的特征进行调整。数据可用处理及分析方法、时空数据分析等两种分析方法就属于这类情况。

(1)数据可用处理及分析方法。大数据环境中容易产生许多劣质数据来降低数据可用性,为了提高数据可用性及数据质量,李建中及刘显敏[32]梳理了数种数据可用性的相关方法,包括高质量数据获取与整合、数据错误自动检测与修复、弱可用数据处理与分析等,分别解决了大规模数据集预处理阶段常见的一致性、精确性、完整性、时效性及实体同一性等问题。对情报研究来说,情报素材、产品形式及工作任务分解的质量控制是情报工作的核心[33],其中,情报素材的质量对后续的情报分析成败存在着至关重要的作用,当数据或信息是错误或不完整时,提炼出来的情报势必会存在缺陷或错误。过去对情报研究的质量控制取决于人,如果能引入数据可用处理及分析方法解决数据或信息源可能存在的不一致、不精确、遗漏、滞后或重复等问题,有助于提高情报分析素材的可用性与正确性。

(2)时空数据分析。时空数据分析是地球信息科学相关领域的研究热点,其中最常使用“周期性行为”(Periodic Behavior)分析,例如天气预报、环境监控、地理信息系统、城市交通网络管理等都是常见的应用实例[7]。现有研究的多数做法是采取基于时间序列的方法进行周期性行为建模,但建模过程容易出现对象可能没有周期性行为、时间点分布不一定呈现周期性等问题,为了解决这些问题,王阅等人[34]提出基于ERP的周期检测方法解决周期长度定义问题,孟志青等人[35]提出多粒度时间文本下的周期模式挖掘算法解决时态文本数据挖掘问题。对情报研究来说,时间是文本中一个重要的属性,如文献发表规律、舆情监控、科研人员的研究主题周期等。在原有数据基础上增加时间维度进行长时段分析是多数研究的常见做法,但并没有呈现出其中的周期性规律,特别是文本中的规律特征较难发现,如果能引入此类方法,将有助于找出情报演化的周期模式。

2.3 不适用的方法

考虑学科领域差异,本文认为 “翻译生物信息学分析”及“学习分析方法”两种专门研究方法不适合情报研究。

(1)翻译生物信息学分析。翻译生物信息学分析是生物信息学的专门分析方法,这种方法是依据特定目的整合多数据源及促进领域知识的有效利用,其结果可应用在生物医学研究、产生支持医疗人员在治疗点中的“可操作的决策”(Actionable Decision),同时能对人类与疾病的关联关系提供更好的理解。生物信息学为了找出更多基因与疾病的关系,通过翻译生物信息学分析,可以将分析方法与工具开发从系统层面横跨到分子、个人或全人类层面,分析视角从单一基因或多肽(Polymorphic)挖掘的研究转向新基因或遗传性状组合与预测研究[36]。从分析方法的操作过程来说,考虑到数据源的特殊性(如DNA编码数据、蛋白质结构等)、分析视角、工具构建及使用等因素,并不符合情报学的学科研究特色。

(2)学习分析方法。学习分析方法是搜集、分析及评测学习者及其学习语境的分析方法,目的在于理解与优化学习及其学习环境[8]。从UNESCO IITE机构在2012年11月出版的学习分析方法政策简报可知,学习分析方法的数据分析功能是基于数据挖掘从而开展相关分析内容,包括行为分析、学习资源浏览分析、各种关联分析与影响因素分析等。虽然数据挖掘是情报研究的常见方法,但学习分析方法的结果意义在于解释学习者的学习语境,为教师或管理者提供决策支持,从而改善学习者的学习习惯及促进学习效果。由于这种方法有其特定的含义和应用环境,离开了学习语境,方法的内涵和外延可能就会产生变化,因此,难以移植到情报研究。

2.4 需要继续关注的方法

基于MapReduce或Hadoop的衍生分析方法、图模型分析与挖掘以及商务智能分析,是近年研究探讨较多的方法,但目前尚未形成一个成熟且完善的方法体系,例如,MapReduce或Hadoop等之类的工具还在持续发展中,本身也存在不断的改进空间,它们与各种分析方法的集成缺乏公认的标准和规范,同样地,对于关注图像与事物之间关联的图模型分析与挖掘也尚没有发展出固定的技术,又例如,商务智能分析被定义为由数据仓库、ETL、联机分析、数据挖掘、客户关系管理、知识管理等多种技术融合的一组系统,通过BI系统管理组织内部及个人相关的商业数据、专家信息及知识,涉及数据的融合、取用及分析等方法与工具[37-38],目前也没有标准化的体系架构。

因此,本文还无法明确回答上述三种方法将如何应用于情报研究、在应用过程中需要做哪些调整、这些方法与现有的情报研究方法的关系如何等相关问题,但可以肯定的是,这些方法对未来的情报研究具有借鉴价值,例如,一旦情报研究的处理对象(即数据)积累到了一定程度,成为传统关系数据库处理不了的大数据,那么,使用基于MapReduce或Hadoop的衍生分析方法就成为了必然。又如,图模型分析与挖掘可补充情报研究在图像分析的不足,而商务智能分析可理解为一套集成系统,可应用在情报机构的知识库或机构典藏,找出组织的知识缺口等方面。

3 结语

大数据时代就是一个数据分析的时代,学界和业界提出了很多大数据分析的方法与技术,这些方法与技术对情报研究产生了积极的借鉴作用,本文总结了大数据分析的方法,提出面向层次的BDA方法框架,归纳总结了其中的17种BDA方法,并从可直接移植、将调整后移植、不适用于情报研究以及需要继续关注等四个方面对这些方法在情报研究中的适用性进行了分析,以期为情报研究借鉴或移植BDA相关方法提供参考,促进情报研究的理论与实践发展。

数据分析方法论文:考虑采用数据分析方法表明飞机撤离能力经验介绍

【摘 要】民用飞机的应急撤离能力是民用飞机安全性能的要求之一。目前国内外对民机应急撤离能力的分析对采用实景撤离试验的方法。针对实景撤离试验危险系数高、花费昂贵、周期长等诸多问题,本文阐述应用数据分析的方法,在积累试验数据的基础上通过建立应急撤离元素数据库实现对飞机撤离能力评判的经验介绍。

【关键词】撤离能力;数据分析;撤离元素

0 引言

如何在飞机发生故障时使机上乘员快速的撤离(即应急撤离)是民用飞机安全性要求之一。根据中国民用航空规章第25部(CCAR-25)运输类飞机适航标准要求[1]:“对客座量大于44座的飞机,必须表明其最大乘坐量在90秒钟内在模拟的应急情况下从飞机撤离至地面。对于这一点的符合性,必须通过按CCAR25部附录J规定的试验准则所进行的实际演示来表明,除非中国民用航空局(CAAC)适航部门认为分析与试验的结合足以提供与实际演示所能获得的数据等同的数据资料(§25.803(c))”。

进行全尺寸应急撤离试验,有以下不可避免的缺点:真人验证非常危险、试验花销昂贵、准备周期较长以及参与试验者在撤离中随机行为等问题。根据美国联邦航空局(FAA)的研究发现,在进行全尺寸应急撤离试验中平均6%的参试者受伤。在1972年至1980年,美国进行了7次全尺寸应急撤离试验,2571名乘客和机组参加了试验,其中有168人次受伤[2]。

在1985年FAA开始讨论用分析与试验结合的方法替代全尺寸应急撤离试验来表明对于§25.803(c)的符合性。允许申请人使用分析的方法,其目的是证实飞机能在90秒以内能将机上人员全体撤出[2]。

1 积累试验数据

对于采用分析方法进行证明新型号飞机或已有飞机进行了型号设计更改后符合§25.803(c)的要求,这需要之前的全尺寸撤离演示及其他的试验积累的充足的数据和知识。

分析必须有适当的试验支持,这些试验可能包含,但不限于:

(1)应急出口和辅助撤离设施组合的撤离率;

(2)确定开门和撤离人员准备时间;

(3)确定乘务员训练和程序是充足的以帮助乘客迅速撤离飞机;

(4)确定通道的影响,包含通向应急出口或交叉过道及合并乘客流量的过道交点位置等;

(5)确定飞机内外部应急照明照度更改造成的影响的试验;

(6)确定乘务员座椅位置更改对组织撤离的影响的试验。

成功的应急撤离试验是分析的数据源,分析应基于对确定应急撤离系统元素的信任,(客舱内部特征,门的尺寸,撤离辅助设备和与门的结合和相对位置),引用合适的涉及更小的或者相同的元素的试验记录,然后这些性能数据对需要验证的构型,进行有效的分析。

如果使用未能成功的全尺寸试验数据为基础,对型号飞机的撤离能力进行分析,首先失败的原因应被确定(设备、构型、或程序),然而说明现需要验证的飞机构型中不包含这些失败的元素。

2 建立应急撤离元素数据库

基于上述,对于新型号的飞机及涉及影响飞机撤离能力的设计更改,应进行评估其对于符合§25.803的影响。如果考虑用试验和分析方法结合方法代替全尺寸应急撤离试验,应急撤离元素的数据库的建立,是进行应急撤离分析的基础,同时,相应的试验是应急撤离元素数据库建立的前提。

首先数据库中需要建立对飞机内部构型进行了详细描述的具体模型,在这些模型中,乘客容量与撤离能力的应清晰表述,审定基础应清晰。

客舱内部安排特征和撤离系统元素(例如过道和交口,出口通路、乘务员辅助空间,门和应急出口等)对分析是至关重要的。应详细的描述客舱安排和撤离系统元素,这些表述应该包含位置、操作和客舱的尺寸和特征等,这些对于分析是非常重要的。

关于撤离系统元素任何专用条件、豁免、和等效安全的均应被讨论,和评估,视情况进行相应的试验。在进行应急撤离分析时,这些评估均需包含其中。

如果采用与先前验证飞机相似的特征。经全尺寸演示的构型被考虑作为原验证构型,两个构型的共同特征需要描述清晰。代表性的描述:门和辅助系统是没有更改或与原基本构型相似。内部特征完全没有更改或客舱主要部分没有更改。两个构型的不同之处及构型的独特特征应重点关注。例如,安装了一个新的门,这个门的影响需要进行评估,在其他飞机上相似的门系统的验证数据可以是的源泉。“相似”是使用这些数据基础,“相似”也是分析中的重点表述内容之一。例如:独特特征的空间参数应与已验证的相匹配。这些系统的性能数据应在分析中包含以确定新的构型满足条款要求。当一个新的安装更改了早期的安装详细特征,改变了系统性能,这个更改应该被验证,分析中应包含新安装和早期的安装的性能数据。

数据源应被包含除全尺寸应急撤离演示的以外的试验数据,例如:一个新滑梯的抛放/充气时间数据应被考虑进入撤离时间序,因为滑梯和救生筏抛放和充气,因此一旦开始,不受人为的进一步干涉和CCAR25(和FAR25部)附录J中试验条件的影响。相似的,拉丁文正方形试验(AC25-17A附录4运输类飞机客舱内部失坠性手册)可能被使用确定一个新撤出系统或系统元素的性能能力(需要在附录J的试验条件下执行),以确定乘员和新系统之间的界面是合适的,例如:滑梯的灯光是否是充足的鼓励参与者最小犹豫的跳下去[5]。

3 应急撤离元素

应急撤离元素越涉及小单元的元素,并引入其相应的是试验记录,其分析的可信度越高。

3.1 应急出口

3.1.1 应急出口大小和分布

应急出口的选择和布置需满足§25.807(应急出口)和§25.809(应急出口的布置)的要求。对于申请人已要求豁免的适用的联邦航空条例中的非标准出口布局,必须确定它的可接受性,在一定的条件下进行全尺寸试验,以便与标准出口进行精确的比较。

试验目的是使用所提供的出口构型来确定的平均撤离时间等于或少于运输类飞机适用的联邦航空条例中规定的出口构型所规定的时间。这个结果可用作证实豁免的等效性或证实等效的安全水平。这个试验程序不用作确定出口率或出口构型。

3.1.2 撤离辅助设施

撤离辅助设施展开的时间需满足§25.810的要求。

3.1.3 撤离路线

§25.810 (c)中对撤离路线的选择和制定进行了详细要求。

3.1.4 应急出口标记

应急出口标记要求乘员能认清应急出口及其位置,易于接近通路并易于开启。应急出口标记的的设置满足§25.812的要求。

3.1.5 应急出口和辅助撤离设施组合

如果应急门开启时,由应急门带动并触发辅助撤离设施的启动装置,应急门的运动过程与辅助撤离设施的完美组合是对于应急撤离性能的影响是非常关键的。辅助设施系统的安装需要进行相应的验证工作。应急门辅助设施除完成TSO-C69验证试验外,还需要完成§25.810(a)(1)(v)的要求的5次连续抛放试验。对于应急出口和辅助撤离设施组合有影响的更改,例如:滑梯装饰罩、地板铆钉突出等,存在影响应急门运动和辅助撤离设施开启的组合过程的因素,均需要进行评估分析,视情况进行试验,并记录试验结果。

3.2 过道和通道

3.2.1 应急出口通道

§25.813中明确规定了主过道通往各类型出口和连通各个区域的通道的详细尺寸要求。

3.2.2 应急出口可达性

3.2.3 乘员辅助空间

必须按下列要求规定提供足够的空间,便于机组人员协助旅客撤离:该辅助空间不得使用通道的无障碍宽度减少到低于出口所要求的无障碍宽度。

当邻近出口的区域被要求用于许可机组人员辅助乘客在使用逃生装置,一个12×20英寸的辅助空间在长矩形和清晰的20英寸靠近通道或相当设备是被提供,这个地方是充足的允许乘务员直立站着去执行需要的辅助服务在乘客撤离。较小的偏离从12×20英寸辅助空间是被允许如果已经进行了出口影响减少的评估。一个演示可能是需要的以显示乘员能有效的撤离。

座椅椅背前折不应该被使用侵占辅助空间。依赖辅助空间和坐垫压缩是允许的。如果座椅是容易向前推动和坐垫是容易压缩的。

如果辅助空间是在头顶上的架子下面,例如乘务员不能直立站直,增加空间是被要求的,例如免除外部座椅。辅助空间的效果必须要验证。

辅助空间不需要直接靠近出口。在一些情况下辅助空间可以是在出口稍稍靠里但在主要通道的外部。

辅助扶手是常常被提供在与地板水平的应急出口为乘务员提供稳定性在应急撤离期间。对于辅助扶手没有具体要求。在撤离演示中已经使用了辅助扶手以符合规章要求,那么辅助扶手应该安装,并且在辅助空间上的位置不能更改。

3.2.4 过道宽度

§25.815对飞机应具有符合性合格审定要求的最小无障碍过道和通道进行了规定。这可以组合多模式特征。各种组合模式特征下的撤离速率的影响,需要进行试验。最小的座椅宽度考虑了动态试验座椅的变形影响。

通过§25.815(过道宽度)表明符合§25.807(应急出口)是符合25.803的序幕。构型满足§25.807和§25.813(应急出口通道)的要求的讨论是应急撤离能力分析的重要部分和可接受的重点。这一节定义了各种应急出口的类型,各种类型数目的要求和易于接近和T■=T■+T■位置的要求。这些分析应直接阐明客舱乘客分布的和出口能力分布的问题。当物理约束,例如机体结构、机翼和发动机位置、防止舱门位置合适的几何独特性、提高应急撤离能力的补偿因素应该被讨论。出口的几何分布,出口类型的规定能力,乘客舱区域客座椅密度应该被记录。布置图上出口的几何分布是明显的。涉及到乘员分布的出口均匀分布可能不是立即可视的。

3.3 应急照明

飞机应急照明系统的设计需要满足§25.812的要求。

3.4 乘员座椅位置

乘务员和提供的座位应在合适的构型中定义。

3.5 乘员培训

3.6 撤离者行为(犹豫不决等)对试验的影响

3.7 应急撤离的其他客舱特征

例如:飞机外部影响应急撤离的特征(例如发动机和机翼副翼)应详细描述。

4 撤离时间的分析计算

4.1 撤离时间计算公式

FAA确定了撤离能力分析工作和一个可接受的标准的公式,基于撤离系统的时间链或全尺寸撤离演示录像带中观察的事件的次序[4]。

T■=T■+T■ (1)

式中,T■表示总的撤离时间,即从演示开始到最后一个参与者到达地面的间隔事件;T■表示撤离出口前的时间,即从演示开始到第一个参与者到达地面的时间或站在出口前的时间;T■表示出口的撤离时间,即从第一个参与者到达地面到最后一个撤离者到达地面的时间。

其中,T■主要包括:

(1)开门时间;

(2)辅助设施抛放,和充气(如适用);

(3)第一个参试者犹豫的时间(定义作为设备可以开始使用和第一个参与者已经朝地面的动作)和参试者到达地面的时间。

4.2 支持分析数据

(1)上文讨论数据库中包含了从试验和演示中得到的数据,并定义了定义每一个数据的对于验证的需要程度。

(2)当分析中使用的数据是一个时间间隔,数据库中包含了在两个事件时间中增加了时间间隔。事件是可视的和可直接验证的,因此间隔是源于事件时间。用于支持分析的所有的单一事件时间表格在数据库中是易见的。

(3)一个不平常的数据影响时间间隔,例如一个参试者在辅助设施完全开启前跳出,或辅助设施抛放在演示中,这些数据应合适的调整。这样的调整应在分析中验证。

4.3 整体撤离时间计算

计算撤离时间和参与者计算在出口附近的可以被使用提供一个简单的图标结果。一个简单的构型图表可以满意出口描述的多种目的。乘客和机组允许出口(客舱定义线)和每个出口的撤离时间。

4.4 成功判据

飞机在CCAR25部附录J或CCAR121部附录D确定的演示条件下具有总撤离时间小于90秒的撤离能力,出口撤离能力的时间裕度是需要的。

可以使用以下的公式定义时间裕度TM:

T■=∑■■90-T■ (2)

T■表示第i个出口的总体撤离时间(秒);n表示总体使用出口的数目。

在以上公式计算使用的可用裕度应该等于或大于9秒。9秒的时间间隔(目前标准90秒的10%)是基于目前运输类飞机验证的能力[4]。

5 总结

使用分析与试验组合的方法替代全尺寸应急撤离试验,表明符合§25.803,是飞机设计验证发展的方向,其依靠大量的试验数据作为分析的支持数据,试验是飞机应急撤离能力分析的基础。同时,申请人如果考虑采用此方法,需要尽可能早的与适航部门沟通讨论,以确定所有的重要因素均得到考虑和评估,这些因素的考虑对于应急撤离能力的分析是至关重要的。

数据分析方法论文:质量管理数据分析方法在船舶设计中的应用

摘要:采用一种全新的质量管理数据分析方法,对某船送中国船级社(CCS)广州审图中心审查的所有图样文件进行了统计和分析。通过采用此方法,能清晰地反映出各专业的技术力量情况,从而可根据需要对各专业进行调整,最终达到提高产品项目设计质量的目的。

关键词:质量管理,统计分析,船舶设计

1概述

在船舶设计项目质量管理中,对设计图纸的差错率进行统计分析非常重要,不仅可以总结经验,还可以找出设计环节中的薄弱之处,进而有针对性地采取改进措施,降低图纸差错率和图纸修改率,最终达到提高设计质量的目的。本文将一种全新的质量管理数据分析方法应用到船舶设计项目中,对某船送中国船级社(CCS)广州审图中心的各专业图样文件进行了统计和分析。首先对CCS审图意见类别及其导致修改的原因进行统计,然后对统计结果进行分析,最后针对产生原因采取相应的改进措施。

2专业审图意见类别和原因分析

对各专业分别进行统计和分析,有利于了解各专业本身技术力量的实际情况,以便专业负责人做出适时的调整,对薄弱之处加以改进和提高。根据CCS的审图意见类别,对某船各专业的图样文件进行统计,然后根据CCS提出的意见进行原因分析。

为了方便分析,设置下列不同的代码,表示不同的审图意见类别和原因分析含义。

(1)审图意见类别代码含义:

A-认可无意见;

AC-认可有意见;

N-备查无意见;

NC-备查有意见;

TS-转送现场验船师审核;

RS-不予批准,需修改后重新送审。

(2)原因分析代码含义:

B1-设计方案欠妥;

B2-设计接口不协调;

B3-不符合现行有效的规范、法规要求;

B4-标识不明或有误;

B5-其它。

下面对轮机专业进行举例说明:

该专业的意见类别统计见表1,原因分析统计见表2。

表1轮机专业CCS审图意见类别统计表

表2轮机专业原因分析统计表

由表1可清楚地看出某船轮机专业图样文件的退审意见分布情况。其它专业也分别如此进行归类和统计,便能了解本专业图样文件的退审意见分布情况,并且还可将各专业的退审情况进行比较。

由表2可清楚地看出某船轮机专业图样文件的差错分布较为集中在B3 (不符合现行有效的规范、法规要求),其次是B1(设计方案欠妥),说明轮机专业在这两方面需采取措施加以改进。其它专业也分别如此归类和统计,这样就能清楚地了解各专业自身的薄弱环节在何处,从而可采取相应的措施来改进和提高。

3全船审图意见类别和原因分析

为了使分析具有全局性,对各专业之间进行比较之后,需对全船进行统计和分析,这样有利于找出整体中的薄弱环节在何处。某船全船图样文件的CCS审图意见类别统计见表3;原因分析统计见表4。

表3全船CCS审图意见类别数据统计表

表4全船原因分析统计表

由表3可清楚地看出各个专业退审图样文件的总体情况。由表4可看出各个专业图样文件的退审意见主要集中在B3(不符合现行有效的规范、法规要求),说明在这一环节所有专业均比较薄弱,特别是电气专业,因此需专门针对这一环节制定改进措施。

通过对全船的退审图样文件进行统计和分析后,使项目负责人能清楚地掌握各专业的实际工作情况与整个项目组中的薄弱环节所在,以便采取改进措施,从全局出发对各专业的技术力量进行调整,进而提高产品项目设计质量。

4结论

在船舶设计项目中采用这种全新的质量管理数据分析方法,不仅能清晰地反映出各专业本身的优劣势,还能反映出各个专业之间技术力量的强弱差别。这样不但让专业负责人能了解本专业的问题所在,并采取相应的改进措施,同时也能让项目负责人掌控全局,根据需要对各专业进行协调,从而提高产品项目的质量,降低图样文件的差错率。

数据分析方法论文:正交设计及数据分析方法在工业中的应用

【摘 要】试验设计在工业生产中具有重要的地位,本文采用正交设计优化试验方案,系统地对正交试验数据的分析方法进行了研究,涉及极差分析与方差分析。探讨了方差分析的几种情况:有交互作用、无交互作用、有重复试验和无重复试验类型,并讨论了其在工业中的应用,总结出其编程实现。

【关键词】正交设计;方差分析;极差分析;试验设计;工业应用

一、正交设计的应用类型

基本上有四种情况:有交互作用和无交互作用,重复试验和无重复试验。相应的对这四种情况所构造的正交表也有所区别具体情况如下:(1)无交互作用是指实验各因素之间是相互

独立的,只是单个因素的水平变化对指标有影响,因素间各水平的联合搭配对指标没有影响或影响可以忽略不计,这种情况对正交表的构造没有影响。(2)有交互作用是指在进行实验时,有时不仅因素的水平变化对指标有影响,而且有些因素间各水平的联合搭配对指标也产生影响,这种联合搭配作用称为交互作用。当出现了交互作用时,正交表的构造也要发生相应的变

二、方差分析在工业上的应用举例

下面以一个三因素、三水平的无重复实验,无交互作用的工业生产例子进行分析一下:例,某水泥厂为了提高水泥的强度,需要通过试验选择最好的生产方案,经研究有三个因素影响水泥的强度,这三个因素生料中矿化剂的用量,烧成温度,保温时间,每个因素都考虑3个水平,具体情况如表,试验的考察指标为28天的抗压强度(Mpa),分别为44.1,45.3,46.7,48.2,46.2,47.0,45.3,43.2,46.3。问:对这3个因素的3个水平如何安排,才能获得最高的水泥抗压强度?

上述例子中指标为抗压强度,影响指标的因素为A(矿化剂的用量),B(烧成温度),C(保温时间),例中只有三个因素,三个水平,L9(34)、L27(318)这两张表都至少有四个列。因此,都可以用来安排这个试验。我们要求尽量少做试验。

对上述例子应用SAS编程,只用输入主效应项,运行后的结果如下:

从输出结果中可以看出,在A(矿化剂的用量)的第二个水平下的均值最大,在B(烧成温度)的第三个水平下的均值最大,在C(保温时间)的第三个水平下的均值最大。根据实际因素,(抗压强度)越大越好,因此在A2B3C3的条件下,即在矿化剂的用量4%,烧成温度1450℃,保温时间40的条件下生产,抗压强度最大。

三、正交设计法的应用步骤

(1)定指标,挑因素,选水平;(2)选择正交表、排表头;(3)排试验方案表,做试验,填数据;(4)分析数据,选取合适的生产条件。通过验证试验,找出较稳定的较优生产条件,进行小批量考验,最后纳入技术文件,才算完成一项正交试验的全过程。