数据分析论文

发布时间：2022-05-21 10:15:37

序言：写作是分享个人见解和探索未知领域的桥梁，我们为您精选了1篇的数据分析论文样本，期待这些样本能够为您提供丰富的参考和启发，请尽情阅读。

数据分析 论文:关于我国电子商务企业的数据分析方法的探讨

为了验证所提炼的因子影响程度及重要程度、检验问卷结构效度和后续回归分析的需要，本文首先对调查数据进行了因子分析，剔除不符合要求的题目，最终得到问卷；然后，使用spss软件对问卷调查数据进行信度、效度、描述性统计、方差和相关分析；最后，建立回归方程模型对假设进行检验。

1因子分析模型及其统计检验

因子分析是一种通过显在变量测评潜在变量，通过具体指标测评抽象因子的统计分析方法。因子分析的目的即在找出量表潜在的结构，减少题目的数目，使之成为一组数量较少而彼此相关较大的变量。在本文中以主成分因素抽取法抽取共同因素，根据kaiesr（1960）的观点选取特征值大于1.0以上的共同因素，再以最大变异法进行共同因素正交旋转处理，保留共同度大于0.6以及因素负荷量大于0.5以上的题目。因素负荷量为硕士论文因素结构中原始变量与抽取出共同因素相关，负荷量越高表示该题目在该共同因素的重要性越大。共同度和特征值是因子分析的两个重要指标。共同度是每个变量在每个共同因子的负荷量的平方和，也就是个别变量可以被共同因子解释的变异量百分比，是个别变量与共同因子间多元相关的平方。特征值是每个变量在某一共同因子的因子负荷量的平方总和。

因子分析的数学模型及其统计检验描述如下：

彼此之间是独立的，则模型（4.1）称为正交因子模型；相反，如果公共因子彼此之间有一定相关性，则称为斜交因子模型。由于斜交因子模型比较复杂，在本文中只考虑正交因子模型，而且假定各公共因子的均值为0，方差为1。

模型中的矩阵a称为因子载荷矩阵，a称为因子“载荷”，是第i个变量在第j个因子上的负荷。因子载荷阵的求解方法有很多，本文用常用的主成分分析法，求解载荷阵得到仅包含m个因子的因子载荷阵。主要问题就在于如何通过spss统计软件对数据的分析来估计因子载荷矩阵a，负荷量大的指标给予保留，否则剔除。保留下来的指标所构成的体系就是本文最终研究得到的指标体系。关于因子载荷的检验有：模型的标准化，这主要是为了得到抽象的因子含义，即对因子各维度进行命名；变量共同度检验，变量的共同度越高，说明该因子分析模型的解释能力越高；因子的方差贡献检验，用因子的累计方差贡献率来确定公共因子提取的个数，也就是寻找一个使得累计方差贡献率达到较大百分比的自然数，即最终提取方差贡献大于1的因子作为公共因子。

由于本文的论题是电子商务环境下服务业企业绩效评价指标体系构建，本文主要运用平衡计分卡把评价指标体系分为四个方面，18个二级指标作为18个因子，按照因子分析法来选取有效指标，各项指标在选取时，需要遵循两个原则，一是该指标在以前的研究中出现的概率，二是指标与所要研究的问题的潜在相关性。本文在四个方面的指标的选取上，另外考虑了①全面性，要求所选的指标能反映企业的经营、客户、企业学习与成长、财务方面的状况；②有效性，要求选择那些能够对预测企业的整体状况有指示作用的重要指标；如，若各项指标的双尾t检验的显著性概率小于0.05，则能有效的反映企业的四个方面的状况，反之，则是无效指标，应剔除。③同趋势性，即当各项指标增大时，表示企业的整体状况改善，反之当各项指标减少时，表示企业的整体状况恶化；④可操作性，采用易得到的数据。

2信度、效度、描述性统计、方差和相关分析方法

信度分析是采用一定的方法来衡量回收问卷中各变量的内部一致性，它主要考查的是问卷测量的可靠性，检验每一个因素中各个题目测量相同或相似的特性。本文采用克隆巴赫（cronbach a）一致性系数检验量表的信度和各分量表的信度。效度分析是采用一定的方法对问卷的理论构思效度进行验证。首先，必须对题目的结构、测量的总体安排以及题目见的关系做出说明，然后运用一定的方法从数据中得出基本构思，以此来对测量构思的效度进行分析。用于评价结构效度的主要指标有累积贡献率、共同度和因子负荷。累积贡献率反映公因素对量表或问卷的累积有效程度，共同度反映由公因素解释原变量的有效程度，因子负荷反映原变量与某个公因素的相关度。描述性统计分析是对各维度中的测量题目的均值、标准差、方差等描述性统计量硕士论文进行统计，了解各维度中题目设置的水平。方差分析又称变异数分析或f检验，其目的是推断两组或多组资料的总体均数是否相同，检验两个或多个样本均数的差异是否具有统计学意义。

方差分析对客观事物数量进行依存关系的分析，主要刻画两类变量间线性相关的密切程度，其两个变量全是随机变量，且处于平等地位。两变量之间的相关关系可以通过绘制散点图或计算相关系数来反映。

3回归模型及其统计检验

现实世界中，一个事物的运动变化，总是与其他事物相关联。其中，有的还存在因果关系，这种因果关系有的是线性的，有的是非线性的。当预测对象与其影响因素的关系是线性的，且只有一个影响因素时，就可以用一元线性回归方法建立其一元线性回归预测模型，来表述和分析其因果关系；当有两个或多个影响因素同时作用于一个预测对象时，则用多元线性回归法建立多元线性回归预测模型。

本文就是以多对一的关系，因此，用多元线性回归模型进行统计检验。对于多元线性回归模型及其统计检验描述如下：

当预测对象y同时受到多个解释变量x1,x2,...,xm影响，且各个xj(j=1,2,...,m)与y都近似地表现为线性相关时，则可建立多元线性回归模型来进行预测和分析，模型为：

3）回归方程整体显著性检验

回归模型的显著性检验包括两个方面，即回归方程的显著性检验和回归系数的显著

性检验。

（1）回归方程的显著性检验

回归方程的显著性检验用于检验被解释变量与所有解释变量之间的线性关系是否显著。回归模型总体函数的线性关系是否显著，其实质就是判断回归平方和与残差平方和之比值的大小问题，可以通过方差分析的思想，构造f统计量来进行检验，f检验是用来检验多元线性回归模型的总体效果。

（2）回归系数显著性检验

回归方程总体显著并不意味着每个解释变量对被解释变量的影响都是重要的，还需要对每个回归系数的显著性进行检验。回归系数显著性检验通过构造t统计量来进行，

4）残差正态性检验

残差e是随机扰动项ε的体现。对残差进行分析的目的是检验随机扰动项是否服从经典假设。残差分析的内容包括残差正态性检验、序列相关检验、异方差检验等。本文应用残差的累计概率散点图进行残差正态性检验。

5）异方差检验

异方差常常表现为残差随某个解释变量取值的变化而变化，因此，检验随机扰动项是否存在异方差可以通过绘制被解释变量与解释变量的散点图来简单的判断。如果散点图呈带状分布，则不存在异方差；如果随着解释变量的增大，被解释变量波动逐渐增大或减少，则很可能存在异方差的现象。实践中，常常使用加权最小二乘法消除异方差。

7）多重共线性检验

所谓多重共线性是指各个解释变量之间存在线性关系或接近线性关系的现象。多重共线性常常会导致回归系数方差增大，从而使得t检验难以通过。用spss检验多重共线性共有四种方法：容忍度、方差膨胀因子、条件指数和方差比例。本文选用条件指数和比例方差这两种方法来检验共线性。

（2）方差比例

通过对解释变量协差阵进行矩阵分解，协差阵的每个特征根可以解释各个解释变量方差的一部分。若对于几个不同的解释变量，某个特征根能够解释的方差比例都很高（一般认为都超过50%），则可以认为这几个解释变量之间存在较强的共线性。

需要注意的是，多元线性回归模型的构建中，可能会遇到多重共线性的问题。如果变量完全相关，则不存在，最小二乘法失效。应用最小二乘法估计回归系数的一个重要条件就是自变量之间为不完全的线性相关。如果这种相关程度较低，其影响可以忽略；担任若高度相关时，则回归系数无效或无意义，因而所建模型无效或无意义。这时应该选择其他新的自变量以替代相关的变量或采用其他方法来建立模型。在本文中就是采用其他新的自变量，从模型中剔除不显著的变量，在这里剔除的是意义相对次要的变量。

数据分析论文:作为市场化的人口流动——第五次全国人口普查数据分析

「内容提要文章利用2000年第五次全国人口普查等有关资料，分析了改革以来中国大规模人口迁移的空间分布特征、决定因素，及其与市场化改革之间的关系。城乡二元分割的户籍制度使得中国大规模人口迁移在经济转型过程中具有区别一般迁移理论的独特之处。伴随经济增长的市场化改革程度和市场发育的不平衡性，是决定人口迁移基本方向的一个重要因素。加快城乡户籍制度改革和劳动力市场建设，特别是清除阻碍劳动力市场发育的各种制度性障碍，将起到引导和规范人口迁移、促进持续经济增长的双重作用。

「关键词人口迁移/户籍制度/市场化改革

改革以来中国发生的大规模人口迁移，是制度变迁和经济转型共同作用的结果。中国传统的计划经济体制是围绕推行重工业优先发展战略而形成的。在资本稀缺的经济中，推行资本密集型重工业优先发展战略，不可能依靠市场来引导资源配置，因而必须通过计划分配的机制把各种资源按照产业发展的优先序进行配置。由此，以资本和劳动力为代表的资源或生产要素，既无必要，也不允许根据市场价格信号自由流动，因此，随着20世纪50年代这种发展战略格局的确定，一系列相关制度安排把资本和劳动力的配置，按照地域、产业、所有制等分类人为地“画地为牢”，计划之外的生产要素流动成为不合法的现象。其中把城乡人口和劳动力分隔开的户籍制度，以及与其配套的城市劳动就业制度、城市偏向的社会保障制度、基本消费品供应的票证制度、排他性的城市福利体制等，阻碍了劳动力这种生产要素在部门间、地域上和所有制之间的流动。在这种制度下，不存在劳动力市场，农村居民没有政府的许可不可能向城市流动，劳动和人事部门通过计划来控制劳动力跨部门流动。

1978年底开始的农村家庭承包制改革，使农户成为其边际劳动努力的剩余索取者，从而解决了制度下因平均分配原则而长期解决不了的激励问题（meng，2000）。与此同时，政府开始对价格进行改革，诱导农民提高农业生产率。在农业剩余劳动力被释放出来后，非农产业活动更高的报酬吸引劳动力转移（cook，1999），从而推动农村生产要素市场的发育，原来主要集中在农业的劳动力开始向农村非农产业、小城镇甚至大中城市流动。

由于各种阻碍劳动力流动的障碍尚未拆除，以及政府鼓励农村劳动力就地转移的政策引导，20世纪80年代前期的劳动力转移以从农业向农村非农产业转移为主，主要是在乡镇企业中就业，即所谓的“离土不离乡”。但随着乡镇企业遇到来自国有企业、“三资”企业和私人企业越来越强劲的竞争，必须提高技术水平和产品质量，因而乡镇企业资本增加的速度逐渐加快，吸纳劳动力的速度相应减缓。农村劳动力面临着越来越强烈的跨地区转移的压力。与此同时，外商投资企业、中外合资企业、私营企业和股份公司等其他非国有部门在东部地区发展较快，扩大了对劳动力需求，并成为消除制约劳动力流动体制障碍的一支重要力量。

随着农村劳动力就地转移渠道日益狭窄，1983年政府开始允许农民从事农产品的长途贩运和自销，第一次给予农民异地经营以合法性。1984年进一步放松对劳动力流动的控制，甚至鼓励劳动力到临近小城镇打工。1988年中央政府则开了先例，允许农民自带口粮进入城市务工经商。到20世纪90年代，中央政府和地方政府分别采取一系列措施，适当放宽对迁移的政策限制，也就意味着对户籍制度进行了一定程度的改革。例如，许多各种规模的城市很早就实行了所谓的“蓝印户口”制度，把绝对的户籍控制变为选择性地接受。此外，1998年公安部对若干种人群开了进入城市的绿灯，如子女可以随父母任何一方进行户籍登记，长期两地分居的夫妻可以调动到一起并得以户籍转换，老人可以随子女而获得城市户口，等等。虽然执行时在一些大城市遇到阻力，但至少在中央政府的层次上为户籍制度的进一步改革提供了合法性依据。城市福利制度的改革也为农村劳动力向城市流动创造了制度环境。80年代后期开始逐步进行的城市经济改革，如非国有经济的发展，粮食定量供给制度的改革，以及住房分配制度、医疗制度及就业制度的改革，降低了农民向城市流动并居住下来和寻找工作的成本。

与其他方面的政策改革相比，户籍制度改革在很长时间里没有实质性的突破，成为劳动力流动的最大障碍。所有在就业政策、保障体制和社会服务供给方面对外地人的歧视性对待，都根源于户籍制度。随着时间推移，两方面的因素变化推动政府对迁移政策进行改革。一是城市户籍制度不再拥有外部或隐含的福利，也就是地方政府不再根据个人的户籍来提供就业、社会福利等各方面保障。这样，城市人口规模扩张不会给地方政府增添额外财政负担。二是地方政府意识到，劳动力流动不仅带来资源重新配置，而且也是城市融资的一个重要来源。这样，市场化发育水平相异的城市根据各自目标来推进城市户籍制度改革。

可见，通过户籍制度及一系列其他阻碍人口迁移的制度因素的改革而推动的劳动力流动，不仅是经济发展的一个重要内容，也是整个经济体制向市场机制转变的重要进程，并且以其他领域改革的进展为前提。这个转变或改革的结果便是劳动力市场的形成与发育，劳动力资源越来越多地由市场来配置。而在整个经济不断市场化的过程中，人口迁移也表现出转轨时期的特点。这是中国转轨时期人口迁移的特殊性所在。本文旨在利用2000年人口普查资料来分析人口流动与市场化之间的关系。

一、转轨时期人口迁移理论

人口和劳动力在地区间的流动，是劳动力市场在空间上从不均衡向均衡转变的过程。发展中国家在其经济发展过程中，伴随着工业化和城市化发展，大量农村人口和劳动力从农村流向城市，从低生产率的农业部门流向生产率较高的工业部门。刘易斯（lewis ，1954）认为，发展中国家存在着典型的二元经济结构，农村存在着大量剩余劳动力和隐蔽性失业，农业中劳动力的边际生产力几乎等于零或为负值，农村劳动力从农业部门流出不会对农业产出带来负面影响，反而使留在农业部门劳动力的边际产出不断提高；随着城市中劳动力数量不断增加，城市工资水平开始下降，直至城市部门的工资水平与农业部门的工资水平相等，农村劳动力向城市流动才会停止。在刘易斯的模型中，劳动力在城乡之间可以自由流动，不存在显著的制度性障碍。城市现代部门的较高工资水平和传统农业部门的低工资水平，是劳动力在城乡之间流动的驱动力量。在托达罗（todaro，1969；harris和todaro，1970）两部门模型分析中，农村人口和劳动力的迁移取决于城市的工资水平和就业概率，当城市的预期收入水平和农村的工资水平相等时，劳动力在城乡之间分配和迁移都达到均衡。

由于城市经济存在着现代正规部门和非正规部门之分，农村劳动力向城市迁移首先进入非正规部门，然后才有可能进入正规部门就业。城市正规部门就业创造率越大，越有利于将更多的非正规部门劳动力转入正规部门；城乡收入差距越大，从农村流向城市非正规部门劳动力数量越多，城市非正规部门劳动力规模也越大。由于城市正规部门的就业创造率取决于工业产出增长率及该部门的劳动生产率增长率，城市工业的快速增长将有利于提高正规部门的就业创造率，从而减少城市非正规部门的劳动力规模。但是，这个效应有可能被城市工资增长所诱发的大量新增农村劳动力流入所抵消。因此，城市正规部门的就业创造结果带来了城市失业率的上升。

费尔茨（fields，1974）认为，托达罗模型中没有考虑农村劳动力在城市正规部门寻找工作的概率问题。由于非正规部门劳动力获得正规部门就业机会的相对概率较低，流入城市的农村劳动力大多数只能滞留于非正规部门。他们之所以能够接受较低的工资水平，主要是在于他们预期能够从得到的城市正规部门工作机会中获得补偿。在托达罗模型基础上，费尔茨引入了搜寻工作机会的观点，一方面强调了城市制度工资和相对就业概率对迁移过程的影响，另一方面也指出，非正式部门大量不充分就业的劳动力保证了劳动力市场实现均衡时的失业率低于托达罗模型得出的估计。非正式部门大量不充分就业的劳动力存在，在一定程度上缓解了城市的失业问题。

随着劳动力流动，城乡劳动力市场开始相互作用。但是，根据托达罗理论，城市失业率上升将起到减缓人口继续向城市迁移。如果依据费尔茨的观点，城市劳动力市场似乎对农村劳动力流动的影响不大。相比之下，在成熟的市场经济中，城市的失业率是影响劳动力流动的重要因素。托普尔（topel ，1986）利用美国人口普查资料研究发现，1970～1980年，美国东部、中部和北部各州的平均失业率相对于全国水平上升了23%，同时西部和西南部各州的失业率却显著下降。同期，人口迁移的空间流向恰好与此相反，人口净流入地区为西部和西南部地区，东部、中部和北部均为人口净流出地区。

中国的人口迁移不仅具有发展中国家的一般特征，而且还有经济体制转型的独特之处。如前所述，中国特有的户籍制度及其改革过程，为人口和劳动力自由流动和择业提供了制度基础，这也是研究其他国家人口迁移的理论没有遇到过的问题。随着时间的推移，包括户籍制度在内的各项市场化改革措施必然对人口与劳动力迁移产生显著影响。同时，城市就业环境变化也为我们观察城乡劳动力市场的相互作用提供了条件。

首先，不仅是城乡之间、地区之间的收入差距驱动人口的迁移，市场化水平在城乡和地区间的差异也直接影响农村劳动力迁移决策，从而形成特定的迁移流向。在经济发展的初期，资本相对稀缺而劳动力相对丰富。因此，中国经济的比较优势在劳动密集型产业。在20世纪80年代以前的经济增长模式下，由于政府采取人为扭曲资金价格的方式，在资金密集型产业上投资过多，抑制了具有比较优势的劳动密集型产业的发展，导致产业结构的扭曲，资源配置效率的损失。经济改革以来，通过一系列制度变革，资源配置逐渐转向劳动力较为密集的产业，较好地发挥了中国劳动力资源丰富的比较优势。产品和生产要素市场的发育带来了资源重新配置效率的改善，对经济增长做出了重要的贡献（cai 等，2002）。由于生产要素市场发育上在地区之间不平衡，这种资源重新配置的效果主要体现在沿海地区。2000年，92.1%进出口贸易集中在东部地区，中西部地区分别为4.3%和3.6%.同年，86.5%的外商直接投资集中在东部地区，中西部地区分别为8.9%和4.6%.因此，劳动力迁移在东部地区更为活跃，迁移的流向也以从中西部地区向东部地区为特征。

其次，正如在其他国家观察到的那样，较大的迁移距离增加了交通成本、弱化了社会网络关系和目的地的就业信息，减少了迁移者的收益预期，因此，迁移距离上升降低了迁移发生概率。工作的不稳定性和信息获得的不确定性，不仅造成了迁移流向是一个从县内流向县外，从省内向省外的渐进过程，而且使得亲友等社会网络成为迁移者获得非正规部门就业信息的主要方式。格林伍得（greenwood ，1969）认为，迁移存量对人口在地区之间迁移扮演着社会网络的作用。先前的迁移可以为后来者提供信息和其他方面的帮助，减少迁移风险，从而对后期的迁移产生影响。蔡f ǎng＠①（cai ，1999）研究发现，75.8%的省内迁移者、82.4%的跨省迁移者的就业信息获得是通过住在城里或在城里找到工作的亲戚、老乡、朋友获得的。因此，农村劳动力向城市流动通常受到距离所反映出的社会网络强弱的限制，形成分阶段迁移。

第三，尽管户籍制度继续阻隔着农村劳动力向城市迁移，但市场化改革使得城乡劳动力市场开始融合，城市就业环境变化必然对农村劳动力向城市流动带来影响。随着国有企业亏损和非国有部门扩大，越来越多的原国有企业职工开始和迁移者在非正式部门展开就业竞争。在这种情况下，农村劳动力“是走还是留”，取决于正式部门和非正式部门的就业状况，而且其决策通常是暂时的，而不是长期的。这与harris和todaro（1970）模型中所讨论的情况（迁移者在非正式部门临时就业、等待得到正式部门就业机会），以及sethuraman（1981）观察到其他发展中国家的情况（大多数迁移者将他们在非正式部门就业视为永久性的）都有显著差异。一个普遍观察到的现象是，中国农村劳动力向城市和发达地区流动，通常具有季节性特点，最多以年为单位在原住地和迁入地之间往返，呈现出“钟摆式”的流动模式。正如solinger（1999）指出的那样，城市对农村劳动力的大量需求是推进户籍制度改革的必要条件。在非国有经济、特别是外商投资较快的地区，市场力量日益显现，迁移受到鼓励。

二、空间分布特征变化

1990年以来，中国地区收入差距进一步扩大，吸引了中西部地区劳动力向东部地区流动。同时，要素市场发育及资源配置市场化程度，对地区经济增长越来越起着主导性的作用。东部地区不仅对外开放时间早，而且市场发育迅速，较高的市场化水平不断消除了劳动力等要素跨地区间流动的制度性障碍，以至成为劳动力流动的主要吸纳地区。而劳动力向东部地区流动反过来也推动了该地区的经济增长，改善了劳动力资源配置效率（cai 等，2002）。表1显示了人口迁移空间分布状况的长期变化。1987～2000年，人口迁移的空间分布特征是：地区内部迁移（其中主要是省内迁移）比例始终高于地区间的迁移比例。但地区内部和地区之间的迁移比例则随着时间不断发生变化。东部地区内部迁移比例提高，东部地区流向中西部地区的比例下降。而中西部正好与此相反，中部和西部地区内部迁移比例趋于下降，中部向西部、西部向中部的迁移比例也在下降，而中西部向东部地区流入比例不断上升。

注：（1）从统计口径上看，1987年迁移数量包括迁入时间在半年以上的市、镇和县之间的迁移人口；1990年迁移数量包括迁入时间在1年以上的市、县之间的迁移人口；1995年迁移数量包括迁入时间在半年以上的市，区、县之间的迁移人口；2000年迁移数量包括迁入时间在半年以上的乡、镇、街道之间的迁移人口。（2）全部迁移人口包括地区内部和地区之间的人口迁移，不同年份在迁移时间规定和迁移范围上的差别对地区之间分布会带来一定影响。尽管如此，我们仍可以比较不同年份之间迁移流向的变化。

资料来源：《1987年全国1%人口抽样调查资料》、《1995年全国1%人口抽样调查资料》、《中国1990年人口普查资料》、《中国2000年人口普查资料》。

根据2000年第五次人口普查的10%资料显示，全部迁移人口数量为1246万，占总人口的10.6%，其中省内迁移为7.7%、跨省迁移为2.9%.在总迁移人口中，省内迁移的比重始终很高，为73.4%.当我们描述跨省迁移的流向时，其主要以东部地区为迁移目的地的倾向更加明显。表2给出了三类地区跨省迁移比例的空间交叉分布。2000年，东部地区跨省迁移近65%集中在东部其他各省（市），中部地区跨省迁移超过84%集中在东部地区，西部地区跨省迁移超过68%集中在东部地区。从时间趋势上看，1987～2000年，东部地区内部跨省迁移比例上升了近15%，而中西部地区向东部地区迁移比例上升将近24%，后者比前者高出9个百分点。

从流动的出发地和目的地看，迁移可以被划分为城市到城市的迁移、城市到农村的迁移、农村到农村的迁移和农村到城市的迁移四种主要类型。从这种类型划分来观察地区间迁移的流向，也有助于我们理解转轨时期中国人口迁移的特点。从全国来看，城市到城市的迁移和农村到城市的迁移是目前迁移的主要形式。2000年，两者合计占总迁移人口的77.9%，而且农村到城市迁移的比重（40.7%）大于城市到城市的迁移（37.2%）。农村到农村的迁移比重较低，仅占全部迁移的18.2%.而城市到农村的迁移比例最低，不到总迁移人口的1/25.从时间趋势看，城市到城市的迁移所占比重，在东部、中部和西部三类地区都呈现上升趋势，而农村到城市的迁移比重略呈下降趋势。

三、迁移的决定因素：计量分析

在迁移决定因素的实证分析中，早期的迁移模型将重力迁移模型和就业为目的的迁移模型合二为一，假定迁移数量不仅与迁入地和迁出地的人口和迁移距离有关，而且取决于两个地区之间的工资和失业率的比较。通常，采用下列双对数模型来分析这些因素对迁移流向的影响（lowry ，1966；greenwood ，1969；fields，1979）。即：。式中，m 为迁移率，x为影响迁移流向的各种因素，d 为迁移距离，i ，j 分别为迁出地和迁入地。

舒尔茨（schultz ，1982）认为，人口变量反映的是其他影响迁移而没有在模型出现的社会经济变量的作用，它没有行为学上的意义。由于迁移是人口增长的一部分，在迁移实证模型中引入人口规模会带来计量上的共同偏差（fields，1979）。而且，由于迁移存量实际上是人口规模的一部分，如果在实证模型中同时引入这两个变量，将带来严重的多重共线问题，大大降低回归参数估计的效率。因此，通常做法是在实证模型中不引入人口变量。

在回归方程的函数形式选择上，费尔茨（fields，1979）认为，迁移决策本质上是在相互排斥的替代方案之间的一种选择，非对称模型比对称模型对人口迁移具有更强的解释能力。此外，双对数线性回归方程还能够消除奇异值和异方差对估计效率的影响，满足理论上就业机会与工资之间的乘积要求，以及提高回归方程的拟合程度等。他选择了滞后解释变量办法来消除解释变量的内生性问题。我们也采用了所有解释变量数据均为1995年数据的办法来解决迁移模型的内生性问题。

本文数据来自2000年第五次全国人口普查长表资料（10%样本）和微观数据（长表1%样本），1995年全国1%人口抽样调查资料及国家统计局《中国统计年鉴（1996）》。在数据处理上，正式出版的第五次人口普查长表资料没有农村向城市跨省迁移劳动力数量及其失业率数据，我们利用第五次全国人口普查的微观数据计算了这些数据。用于回归分析变量的统计值见表3.

表3用于回归分析变量的统计值

注：*根据微观数据计算。

迁移率的计算，我们采用格林伍得（greenwood ，1969）的定义，用1995年11月1日至2000年10月30日从省迁到省的人口数，除以1995年11月1日以前住在省的人口数。根据长表计算得到的迁移率，包括了所有年龄段跨省农村到城市、城市到城市、农村到农村、城市到农村的四种类型迁移人口；用微观数据计算15～64岁农村劳动力向城市的迁移率。按照这种方法计算得到的两个迁移率的平均值都不高（见表3）。

迁移距离为省会之间铁路公里数。中国地域辽阔，铁路是中国跨省迁移的主要交通方式。这点可以从每年春节农民工返乡造成的铁路拥挤状况中得到印证。迁移距离不仅反应了用于直接交通费用的高低，而且在一定程度上代表了迁移所带来的心理成本大小。随着迁移距离增加，迁移带来的不确定性和迁移风险也会上升，迁移成本随之增加（schultz ，1982；greenwood，1975）。这在劳动力市场不发达的情况下尤其如此。

直接用城市工工资收入和农村人均纯收入来作为工资率的变量显然不合适。随着收入多元化，相当于实际收入的部分并没有反映到名义收入之中，城乡收入在可比性上也存在一定问题（solinger，1995；jefferson ，1992）。奥尼尔（o'neill ，1970）建议采用消费指标来克服收入指标作为工资率变量上的不足。我们利用各省城乡人口作为权重，对城乡居民人均消费支出进行加权平均，作为各省的工资率变量，预期工资率对迁移流向存在两种不同的效应。其中，迁入地为正向效应，而迁出地为负向效应。

1995年全国1%抽样调查和第五次人口普查都对城乡劳动力的就业状况进行了统计。1995年调查问卷中有三项指标用来测度劳动力在调查前一周是否处于失业状态：第一项是从未工作正在找工作，第二项是失去工作正在找工作，第三项是企业停产等待安置的劳动力。2000年人口普查只包括前两项。据此可以计算得到1995年和2000年城乡劳动力的失业率，分别为2.2%和3.6%.由于城乡劳动力的失业率包括了农村劳动力，这低估了城市劳动力市场的就业状况。《中国2000年人口普查资料》公布了分城市、镇和农村的经济活动人口资料，据此计算的城市、镇和农村的失业率分别为9.4%、6.2%、1.2%.利用2000年微观数据计算的城市本地劳动力、城市向城市迁移劳动力、农村向城市迁移劳动力的失业率，分别为9.1%、7.9%和3.6%.如果在迁移模型中忽略了迁移存量，将导致高估其他解释变量对迁移的影响（greenwood，1969）。按照格林伍得的方法，迁移存量应该是以1995年为时点，计算出生在省且居住在省的所有人口。由于中国人口普查资料只提供了出生后一直住在本地和1995年11月1日之前迁入本地等资料，因此，我们采用1995年11月1日之前迁入本地人口指标作为迁移存量的变量。本文中长表的迁移存量包括所有人口，微观数据的迁移存量只包括15～64岁的人口。我们预期迁移存量对人口迁移有正向效应。

在分析地区人均收入差异和经济增长中，贸易开放程度通常被看做是影响地区收入增长的重要因素（barro 和sala-i-martin ，1995；cai 等，2002）。贸易开放程度越高，参与国际市场一体化程度也越高。但是，扭曲的贸易和发展战略也同样起到扩大出口，提高gdp中的贸易份额比重。相比之下，外商直接投资是国外投资者的选择。从长期来看，为了获得最大利润和规避风险，国外企业在其投资过程中要对各地的产品和要素市场发育情况、体制与政策的透明度等因素进行综合考虑，并最终做出投资选择。外资企业进入之后，它利用劳动力市场来解决用人需求，这与国有企业的人事制度形成鲜明对比。因此，我们选择了外商直接投资作为市场化程度的变量，来分析它们对人口迁移的影响。改革以来，虽然所有省份的外商直接投资数量都在增加，但东部地区与中西部地区之间的差异在不断扩大。中国人口迁移流向分布主要集中在东部地区，这与东部地区对市场化改革程度较高是分不开的。

四、回归结果与讨论

方程1～3是利用第五次人口普查长表资料得到的回归结果，方程4、5是利用第五次全国人口普查微观数据得到的回归结果。由于海南、重庆、西藏与其他省会之间距离未能得到，在回归中剔除了这3个地区，长表资料中实际用于回归的样本数量为756个。在微观数据中，由于有些省份的迁移率或农村向城市迁移劳动力数量为零，取对数后，这些数据变成缺省值，所以用于回归的样本数量为506个。

从表4回归结果看，利用长表资料得到的回归方程，解释了大约60%的所有人口跨省迁移的行为；用微观数据得到的回归方程，解释了大约30%的跨省农村劳动力向城市迁移的行为。表4的非对称双对数迁移模型估计结果也表明，迁入地社会经济变量对人口迁移的影响大于迁出地这些变量所发挥的作用。

回归方程1～5中大多数解释变量的回归系数t 值，如迁移距离、人均消费水平、失业率、迁移存量等，都达到了1%或5%的显著性水平，并且作用方向上与前面的理论预期结果也基本一致。

表4中回归方程1和2的区别是采用了不同的失业率数据，前者是1995年的失业率，后者是2000年的失业率。使用1995年失业率数据虽然有助于克服内生性问题，但方程1中迁出地失业率回归系数的绝对值大于迁入地失业率回归系数的绝对值，这个结果可能与现实情况并不吻合。

1995～2000年，中国城市就业环境发生了急剧变化。伴随着国有企业改革和城市社会福利体制改革，企业大量富余人员被释放出来，城市失业率迅速上升。为了解决本地城市职工就业问题，不少地方政府采取了城市就业保护政策，这势必对以就业为目的的劳动力流动产生较大影响。迁移者是理性的，如果目的地的就业机会较小，迁移者将选择不流动，以减少迁移风险和成本。这样，迁入地的就业机会就显得更为重要。

表4迁移决定因素回归结果

注：（1）采用异方差检验方法（breusch-pagan/cook-weisberg ）发现，表中回归方程的依次为：7.85、1.54、1.38、2.80、4.85.我们对回归方程1、5采用robust估计来消除异方差的影响。（2）方程1和5的括号内为robust t值，方程2～4括号内为t 值，*代表5%显著性水平，**代表1%显著性水平。

考虑到2000年失业率真实地反映了就业环境的变化，我们以回归方程2为基准，分析不同因素对迁移的影响，并进行比较。在其他条件不变的情况下，迁移距离上升1%，迁移率下降1.08%.受迁移距离的影响，2000年跨省迁移人口比例不到30%，绝大多数迁移人口选择了省内流动。迁移距离在空间位置上是固定的，但改善交通运输条件和制定合理的交通价格有利于减少迁移者的迁移成本，促进劳动力流动。

在做迁移决策时，潜在的迁移者不仅要考虑两地之间直接的收入差距，而且还要考虑到就业机会大小。在回归方程2中，迁入地人均消费水平回归系数在绝对值上是迁出地的近4倍，但迁入地失业率回归系数在绝对值上是迁出地的3倍以上。迁入地失业率对迁移决策较大的边际影响与迁移者面临的选择有关。本地劳动力市场状况是既定的，迁移者对它别无选择。相反，迁移者对迁入地劳动力市场是可以进行选择的，失业率越高的地区，迁入数量就会下降。

目的地的就业信息提供和帮助，对迁移决策有重要作用。迁移存量的回归系数也证实了这一点。社会网络等非正规信息渠道虽然在迁移中发挥着重要作用，但随着人口流动规模扩大，加快劳动力市场信息体系建设就显得非常重要。

将外商直接投资变量引入回归方程2，就得到回归方程3.引入这个变量之后，迁移距离和失业率等解释变量的回归系数及其显著性变化不大，而人均消费水平的回归系数及其显著性发生较大改变。从绝对值来看，方程3中的人均消费水平回归系数小于回归方程2中的回归系数估计值，迁出地人均消费水平的回归系数显著性有所下降，主要是人均消费水平与外商直接投资之间存在较高相关关系导致的结果（注：人均消费水平与外商直接投资的相关系数为0.56.）。跨省人口迁移比例主要分布在东部地区，它与外商直接投资之间存在较强的相关关系（注：外商直接投资与迁移存量之间的相关系数为0.76.），引入外商直接投资变量之后，迁移存量的回归系数数值下降约50%.为了观察城市劳动力市场对农村劳动力迁移决策的影响，我们利用微观数据做进一步分析。回归方程4引入了农村迁移劳动力的失业率，回归结果进一步支持上述发现，即迁入地的就业机会对迁移者来说更为重要。回归方程5引入了城市劳动力失业率。结果表明，城市失业率对于农村劳动力跨省迁移率有显著性影响，其回归系数在绝对值上不仅大于回归方程4中失业率的回归系数，而且大于回归方程2中的回归系数，这说明城市劳动力市场就业形势确实对农村劳动力的迁移决策有重要作用。改善城市就业环境将有利于促进农村劳动力流向城市，起到加速城市化的作用。

五、结论

20世纪80年代以来在中国出现的大规模人口迁移现象，不仅具有发展中国家从落后的农业经济向工业经济转变的一般特征，还具有从计划经济向市场经济转变的特殊性。将二者结合在一起，既有助于考察中国独特的制度特征对人口迁移的影响，又能够通过对中国案例研究来拓展迁移理论。

经济发展水平和市场发育程度在地区之间的不平衡，决定了人口迁移的基本方向不仅是从农村向城市的迁移，而且是从中西部地区向东部地区的迁移。既然中国经济的进一步增长仍然有赖于从生产要素市场发育从而劳动力流动中获得资源重新配置效率（注：约翰森（johnson，1999）认为，在今后30年，如果迁移障碍被逐渐拆除，同时城乡收入水平在人力资本可比的条件下达到几乎相等的话，劳动力部门间转移可以对年经济增长率贡献2～3个百分点。），加快中西部地区市场制度的建设，特别是清除阻碍劳动力市场发育的各种制度性障碍，可以引导和规范人口迁移，使其不仅具有微观理性，而且具有更加理性的宏观后果。市场化改革措施（如扩大外商直接投资和对外贸易等）所带来的经济发展将有助于获得“一石二鸟”的功效，也就是讲，它为劳动力流动不断营造同样的发展环境，并在创造就业机会的同时，推进城乡户籍制度改革。

数据分析论文:浅议现金流量表的财务数据分析

在市场经济条件下，企业现金流量在很大程度上决定着企业的生存和发展能力。即使企业有盈利能力，但若现金周转不畅、调度不灵，也将严重影响企业正常的生产经营，偿债能力的弱化直接影响企业的信誉，最终影响企业的生存。因此，现金流量信息在企业经营和管理中的地位越来越重要，正日益受到企业内外各方人士的关注。一、现金净增加额的作用分析

对现金流量表的分析，首先应该观察现金的净增加额。一个企业在生产经营正常，投资和筹资规模不变的情况下，现金净增加额越大，企业活力越强。换言之，如果企业的现金净增加额主要来自生产经营活动产生的现金流量净额。可以反映出企业收现能力强，坏账风险小，其营销能力一般较强；如果企业的现金净额主要是投资活动产生的，甚至是由处置固定资产、无形资产和其它长期资产而增加的，这可能反映出企业生产经营能力削弱，从而处置非流动资产以缓解资金矛盾，但也可能是企业为了走出困境而调整资产结构；如果企业现金净增加额主要是由于筹资活动引起的，意味着企业将支付更多的利息或股利，它未来的现金流量净增加额必须更大，才能满足偿付的需要，否则，企业就可能承受较大的财务风险。

现金流量净增加额也可能是负值，即现金流量净额减少，这一般是不良信息，因为至少企业的短期偿债能力会受到影响。但如果企业经营活动产生的现金流量净额是正数，且数额较大，而企业整体上现金流量净减少主要是固定资产、无形资产或其它长期资产引起的，或主要是对外投资所引起的，这一般是由于企业进行设备更新或扩大生产能力或投资开拓市场，这种现金流量净减少并不意味着企业经营能力不佳，而是意味着企业未来可能有更大的现金流入。如果企业现金流量净减少主要是由于偿还债务及利息引起的，这就意味着企业未来用于满足偿付需要的现金可能将减少，企业财务风险变小，只要企业营销状况正常，企业不一定就会走向衰退。当然，短时期内使用过多的现金用于偿债，可能引起企业资金周转困难。

二、对企业现金流量来源和现金流量用途及其风险性，偿还债务和支付股利占净现金流量的比重分析

（一）企业自身创造现金能力的比率。计算公式为：经营活动的现金流量/现金流量总额。这个比率越高，表明企业自身创造现金能力越强，财力基础越稳固，偿债能力和对外筹资能力越强。经营活动的净现金流量从本质上代表了企业自身创造现金的能力，尽管企业可以通过对外筹资等途径取得现金流，但企业债务的偿还主要依靠于经营活动的净现金流量。

（二）企业偿付全部债务能力的比率。计算公式为：经营活动的净现金流量/债务总额。这个比率反映企业一定时期，每1元负债由多少经营活动现金流量所补充，这个比率越大，说明企业偿还全部债务能力越强。

（三）企业短期偿债能力的比率。计算公式为：经营活动的净现金流量/流动负债。这个比率越大，说明企业短期偿债能力越强。

（四）每股流通股的现金流量比率。计算公式为：经营活动的净现金流量/流通在外的普通股数。比率越大，说明企业进行资本支出的能力越强。

（五）支付现金股利的比率。计算公式为：经营活动的净现金流量/现金股利。比率越大，说明企业支付现金股利能力越强。当然，这并不意味着投资者的每股股票就可以获取许多股利。股利发放与股利政策有关。如果管理当局无意于发放股利，而是青睐于用现金流量进行投资，以期获得较高的投资效益，从而提高企业的股票市价，那么，上述这项比率指标的效用就不是很大，因此本比率指标对财务分析只起参考作用。

（六）现金流量资本支出比率。计算公式为：经营活动的净现金流量/资本支出总额。公式中“资本支出总额”是指企业为维持或扩大生产能力而购置固定资产或无形资产而发生的支出。这个比率主要反映企业利用经营活动产生的净现金流量维持或扩大生产经营规模的能力，其值越大，说明企业发展能力越强，反之，则越弱。另外，该比率也可用于评价企业的偿债能力，因为当经营活动产生的净现金流量大于维持或扩大生产规模所需的资本支出时，其余部分可用于偿还债务。

（七）现金流入对现金流出比率。计算公式为：经营活动的现金流入累计数/经营活动引起的现金流出累计数。这个比率表明企业经营活动所得现金满足其所需现金流出的程度。一般而言，该比率的值应大于1，这样企业才能在不增加负债的情况下维持简单再生产，它体现了企业经营活动产生正现金流量的能力，在某种程度上也体现了企业盈利水平高低。其值越大，说明企业上述各方面的状况越好，反之，则说明企业上述各方面的状况越差。

（八）净现金流量偏离标准比率。计算公式为：经营活动的净现金流量/（净收益折旧或摊销额）。这个比率表明经营活动的净现金流量偏离正常情况下应达到的水平程度，其标准值应为1.该比率说明企业在存货、应收账款、负债等管理上的成效。其值大于1时，说明企业在应收账款、管理存货等方面措施得当，产生正现金流量；其值小于1时，说明企业在应收账款、管理等方面措施不力，产生了负现金流量。

三、结合资产负债表、损益表对现金流量表进行全面、综合地分析和运用

现金流量表反映的只是企业一定期间现金流入和流出的情况，它既不能反映企业的盈利状况，也不能反映企业的资产负债状况。但由于现金流量表是连接资产负债表和损益表的纽带，利用现金流量表内的信息与资产负债表和损益表相结合，能够挖掘出更多、更重要的关于企业财务和经营状况的信息，从而对企业的生产经营活动做出更全面、客观和正确的评价。

（一）现金流量表与资产负债表比较分析

1．偿债能力的分析

在分析企业偿债能力时，首先要看企业当期取得的现金收入在满足生产经营所需现金支出后，是否有足够的现金用于偿还到期债务。在拥有资产负债表和损益表的基础上，可以用以下两个比率来分析：

短期偿债能力=经营现金流量/流动负债

长期偿债能力=经营现金流量/总负债

以上两个比率值越大，表明企业偿还债务的能力越强。但是并非比率值越大越好，因为现金的收益性较差，若现金流量表中“现金增加额”项目数额过大，则可能是企业现在的生产能力不能充分吸收现有资产，使资产过多地停留在盈利能力较低的现金上，从而降低了企业的获得能力。

2．盈利能力及支付能力分析

由于利润指标存在的缺陷，因此可运用现金净流量与资产负债表相关指标进行对比分析，作为每股收益、净资产收益率等盈利指标的补充。

每股经营活动现金净流量/总股本。这一比率反映每股资本获取现金净流量的能力，比率越高，表明企业支付股利的能力越强。

经营活动现金净流量/净资产。这一比率反映投资者投入资本创造现金的能力，比率越高，创现能力越强。

（二）现金流量表与损益表比较分析

将现金流量表的有关指标与损益表的相关指标进行对比，以评价企业利润的质量。

1．经营活动现金净流量与净利润比较。经营活动产生的现金流量与会计利润之比若大于1或等于1，说明会计收益的收现能力较强，利润质量较好；若小于1，则说明会计利润可能受到人为操纵或存在大量应收账款，利润质量较差。

2．销售商品、提供劳务收到的现金与主营业务收入比较。收现数所占比重大，说明销售收入实现后所增加的资产转换现金速度快、质量高。

3．分得股利或利润及取得债券利息收入所得到的现金与投资收益比较，可大致反映企业账面投资收益的质量。

综上分析，现金流量表与资产负债表及损益表构成了企业完整的会计报表信息体系，在运用现金流量表对企业进行财务分析时，要注意与资产负债表和损益表相结合，才能对所分析企业的财务状况得出较全面和较合理的结论。

数据分析论文:电子商务网站营销数据分析技术初探

论文关键词:日志数据　信息技术　数据仓库　联机分析处理

论文摘要:电子商务(ec)在现代商务企业的发展中占有越来越重要的地位。如何利用信息技术掌握更多的商务信息已备受商家们的关注,站点分析技术正是为商家和网站提供了这样一种有效的分析工具。

本文讨论了一些站点分析的相关技术信息和几种网站分析浏览者行为的理论与算法,及数据仓库的相关理论知识。并对站点日志数据进行了实例分析,并指出了站点分析技术发展的方向。

一、绪论

互联网技术不断革新与发展,给全球经济带来新的革命,从而也影响着人们的生活。互联网为企业提供了一种真正属于自己并面对广大网民的信息载体,企业通过这一载体,可以自由地将企业的产品、服务等其他相关信息在线。

电子商务就是网上实行各种商务活动的总包装,种种所谓电子商务解决方案,实际上就是实现各种网上商务活动的硬件与软件系统。它将影响到每一个人、每一个企业。电子商务的主体是我们每一个人、每一个企业,电子商务发展的过程就是对人们的生活、企业的运行的一种模式的一个巨大改变的过程。对于进入虚拟世界的商家而言,仅仅吸引注意力还不行,对它们而言,站点的访问率绝对不仅仅是一个数字,它还是一种信息,如果网站能够从网络中获得网民的信息并从中分析其行为诱因,那么就容易掌握网民的需求,从而利用互联网去创造更多商机。

电子商务站点用户行为的分析这一问题也因此成为现如今的热门话题,被人们普遍关心起来,尤其是被众商家所重视。web站点的日志数据正以每天数十兆的速度增长。如何分析这些数据,如何从这些大量数据中发现有用的、重要的知识(包括模式、规则、可视化结构等)也成为现在人们最关注的信息。

在此情况下,站点用户行为分析就可为网站或商家提供出大量有价值的信息,包括站点的受欢迎度的对比、商业广告点击情况总括、产品的反馈信息、站点各种信息的点击情况等等。另外,还可根据不同的页面内容来分类浏览者,以便做出更合理的页面分类,促使网站逐步向个性化、最优化状态发展。这一技术对互联网的发展壮大有着不可忽视的巨大作用,它的发展对信息技术亦将产生深远的影响。

在电子商务早期阶段时,web站点数据流分析通常是在主页上安装计数器以及在一个外部日志文件上运行简单的统计程序记录点击率。但是,简单的点击计数既不准确也远未达到营销目的所需的详细程度。因此,各公司开始寻找更先进的分析工具,这类工具可以提供谁在访问公司web站点以及访问者一旦进入站点后将做些什么的全面信息。站点开始分析的地方是web服务器的访问日志。每当用户在站点上请求一个网页时,这个请求就被记录在访问日志中。如:目前有多少用户正在访问站点、他们正在看哪些网页以及他们在站点中呆了多长时间。显然,日志分析和行为概况的正确组合可以对web站点的成功产生直接影响。此外,从日志分析中得到的信息是很难从真实世界中捕获到的,但这些信息却可以较容易地在线收集到。web数据流分析工具的这些最新进展可以使网站获得有关上网客户和他们习惯的详细报告。

二、站点信息统计方法

web页面数据主要是半结构化数据,计算机网络技术和信息技术的飞速发展,使得半结构化数据呈现日益繁荣的趋势。半结构化数据,是一种介于模式固定的结构化数据,和完全没有模式的无序数据之间,在查询前无法预先确定其具体的类型和格式;同时它们相应的数据结构是不固定、不完全或不规则的,即这些数据有的本身就没有结构,有的只有十分松散的结构,有的数据的结构是隐含的,需要从数据中进行抽取。而有时,尽管数据本身是有精确结构的,但为了一定的目的,而故意忽视它的结构。半结构化数据具有以下五方面的

主要特点:

1.结构是不规则的。包含异构数据、相同的数据信息用不同类型或不同的结构表示。

2.结构是隐含的。如电子文档sgml格式。

3.结构是部分的,有时部分数据根本无结构,而部分数据只有粗略的结构。

4.指示性结构与约束性结构。传统的数据库使用严格的分类策略来保护数据。而指示性数据结构是对结构的一种非精确的描述。它可接受所有新数据,代价是要频繁修改结构。

5.半结构化数据通常在数据存在之后才能通过当前数据归纳出其结构,称之为事后模式引导。模式有时可被忽略,同时数据与数据模式间的区别逐渐消除。

三、数据分析的方法

web页面的数据通常是利用统计模型和数学模型来分析的。使用的模型有线性分析和非线性分析;连续回归分析和逻辑回归分析;单变量和多变量分析以及时间序列分析等。这些统计分析工具能提供可视化功能和分析功能来寻找数据间关系、构造模型来分析、解释数据。并通过交互式过程和迭代过程用来求精模型,最终开发出最具适应性的模型来将数据转化为有价值的信息。

知识发现是从数据仓库的大量数据中筛取信息,寻找经常出现的模式,检查趋势并发掘实施。它是分析web页面数据的重要方法。知识发现与模式识别的算法有以下几种:

1.依赖性分析

依赖性分析算法搜索数据仓库的条目和对象,从中寻找重复出现概率很高的模式。它展示了数据间未知的依赖关系。利用依赖性分析算法可以从某一数据对象的信息来推断另一数据对象的信息。例如:在杂货店中,一堆椒盐饼干放在陈列饮料的走道上,这是因为经过依赖性分析,商店认为:很大一部分买饮料的顾客如果在取饮料的路上看到椒盐饼干的话就会购买,因而此种分析影响了商店布局。

2.聚类和分类

在某些情况下,无法界定要分析的数据类,用聚类算法发现一些不知道的数据类或怀疑的数据类。聚类的过程是以某一特定时间为依据,找出一个共享一些公共类别的群体,它称为无监督学习。分类过程,这是发现一些规定某些商品或时间是否属于某一特定数据子集的规则。这些数据类很少在关系数据库中进行定义,因而规范的数据模型中没有它们的位置。最典型的例子是信用卡核准过程,可确定能否按商品价格和其它标准把某一购买者归入可接受的那一类中。分类又称为有监督学习。

3.神经网络

神经网络通过学习待分析数据中的模式来构造模型。它对隐式类型进行分类。图像分析是神经网络最成功的应用之一。神经网络用于模型化非线性的、复杂的或噪声高的数据。一般神经模型由三个层次组成:数据仓库数据输入、中间层(各种神经元)和输出。它通常用恰当的数据库示例来训练和学习、校正预测的模型,提高预测结果的准确性。

4.数据挖掘中的关联规则

关联规则是数据挖掘的一个重要内容,通常关联规则反映的是数据间的定性关联关系。如一个商品交易数据库,一条记录表示用户一次购买的商品种类,每个属性(a、b……)代表一种商品,每个属性都是布尔类型的。一条关联规则的例子是:{a、b}{d}[2%][60%],规则的含义是“如果用户购买商品a和b,那么也可能购买商品d,因为同时购买商品a、b和d的交易记录占总交易数的2%而购买a和b的交易中,有60%的交易也包含d”。规则中60%是规则的信任度,2%是规则的支持度。数据挖掘就是要发现所有满足用户定义的最小信任度和支持度阀值限制的关联规则。数据只是定性地描述一个交易是否包含某商品,而对交易量没有定量描述,这种布尔类型数据间的关联规则被称为定性关联规则。但数据记录的属性往往是数值型或字符型的,这些数据间也存在对决策有帮助的关联规则,相对于定性关联规则,这些规则被称为定量关联规则。

另外,数据挖掘目前仍面临着数据质量的问题。由于数据仓库中的数据来自多个数据源,而在合并中存在很多障碍,如:没有建立合并视图所需的公共关键字;数据值相互抵触;元数据的说明不完备或丢失;数据值的不洁净等等。数据挖掘是在标准化的数据基础上进行的,因而这些都会严重破坏数据的准确性,导致最终决策的失误。所有这些问题都在等待着人们去发掘更好的解决方法。

数据分析论文:色谱数据分析在变压器故障处理中的应用

【摘要】变压器油的特性之一就是随着温度的升高会分解出不同的气体，因此对于运行中的油冷却变压器，色谱数据必须加强监测。油色谱分析是从运行的变压器油中，提取气体的组分和含量用来分析判断变压器是否存在故障以及故障的性质和严重程度的一种手段。通过色谱数据分析可以提早发现和解决变压器存在的故障，保证变压器的安全稳定运行。

【关键词】变压器色谱分析气体组分故障

一、色谱数据分析原则

变压器故障大体分为放电性故障和过热性故障，变压器油的分解是由于温度高产生的，不同的故障会导致油不同的温度，而分解的气体也有所差别。

由于故障原因当局部油温上升到一定程度时，可分解为分子气态物质，如甲烷、乙烷产生在100-150℃以上，乙烯产生在300-600℃以上，而乙炔产生在800-1200℃以上，氢（h2）多属于故障产生其它气体的“附属品”，有故障便产生氢。在变压器故障中，只有火花放电或电弧放电时，其局部温度可达1000℃以上，因此我们称c2h2为放电故障的特征气体。由于种种原因设备内部异常过热，当温度达到300-600℃以上时产生乙烯，且随温度的升高而产生乙烯量也增高，因此我们将乙烯看做过热性故障的特征气体。变压器所用固体绝缘材料是碳氢氧化合物，在受热时分解产生co、co2、h2，所以把co、co2看做固体绝缘老化的特征气体。通过对变压器油色谱数据分析，分析产生气体的不同组分，进而判断变压器故障的类型，以有助于制定相应的处理和解决方案，维护和保障变压器的安全稳定运行。

二、秦山二厂2号主变a相总烃高的处理

2号主变a相在线色谱装置监测的数据在2011年2月色谱出现增长趋势，甲烷、乙烯、总烃等含量增长趋势明显，增长数值较小，且均在国标注意值范围以内。为确保在线数据的正确性，增加了离线取样的监测，在2月11日和12日两次取样，试验室分析确认色谱数据确有增长，从两天的趋势来看，增长速度并不快。经过讨论，将离线色谱分析周期从3个月缩短至半个月，密切监测色谱数据。根据此数据，绘制趋势图1如下：

图1 2号主变a相油色谱数据趋势

（一）故障原因分析

从系统运行来看，2月6日秦山三厂2#机组主变至500kv联合开关站之间的架空线受山火影响，导致a相接地故障。2号主变a相同样也承受短路故障，从故障录波来看持续时间57 ms，运行电流700a，故障时的电流突变量达到1875a。短路故障发生后，2号主变a相总烃及其它气体有所增长，之后的取样数据又基本保持了一个相对稳定的状态，分析故障应该不在主回路，短路时的电动力应是造成某些结构件的松动，导致其接触电阻变大，变压器内部电磁感应而产生的环流在高电阻回路中发生过热。

（二）内部检查处理

根据故障的分析情况，决定在207大修期间对a相主变进行了内部检查，并进行低电压阻抗测量以判断绕组是否存在变形现象。

2号主变a相排油结束后，工作人员进入变压器内部进行了详细的检查与试验，导电主回路未发现异常，绕组外部的绝缘纸板也没有发现变形。发现的主要缺陷有两个：铁芯夹件与衬板间过热和磁屏蔽多点接地。

（三）处理后运行情况

经过处理后的2号主变a相大修结束后投入运行，经过一段时间的监测，在线色谱数据和离线取样色谱数据均表明油中分解的各气体处于稳定状态，没有增长的趋势，缺陷得到了消除。

三、秦山二厂1号主变b相总烃高的处理

2012年5月16日早班化学人员在巡检主变在线色谱时发现 1号主变b相的气体含量突然出现上涨趋势，在109大修冲击送电前总烃约5ppm，4月12日冲击送电，5月20日已经超过了国标的注意值150ppm达到163ppm，5月28日总烃达到360ppm，在7月2日总烃曾达到最高值423ppm，目前总烃值在400ppm上下浮动，基本处于稳定状态。

（一）故障原因分析

2012年4月12日1号主变109大修后冲击送电，冲击时b相励磁涌流最大达1950a，4月13日在线色谱显示出现乙炔，总烃由冲击前6ppm升至8ppm，4月30日机组并网开始升功率，5月4日晚机组达满功率，5月5日在线色谱显示b相总烃增长较大，5日一天从凌晨1：50到晚19：49 b相总烃由14.25ppm增长到41.69ppm，在线色谱中乙炔含量自产生后无明显变化，试验取样化验乙炔含量有增长趋势，24日早总烃含量己达304ppm。从色谱数据分析的结

判断可能的故障在铁芯框架，冲击引起松动，从而导致接触电阻过大，漏磁产生的环流使内部局部温度过高。判断造成总烃升高的原因为，冲击送电时励磁涌流造成铁芯振动，引起铁芯结构件松动，进而使铁芯结构框架各支路中的电流分配不平衡，造成某点过热，引起总烃升高，保变专家分析认为故障点很可能存在于铁芯拉板与夹件间的导电铜螺栓。从总烃的趋势及组成分析，缺陷不在铁芯和主电气回路上，缺陷不涉及固体绝缘。和前述的2号主变a相总烃的原因类似，运行过程中过热点的阻值很不稳定，极有可能变化，目前1号主变b相总烃值趋于稳定，表明内部过热点已经转变。

（二）后续行动

总烃值还应加强监测，看是否还有变化，另应做好下次大修进行检查处理的准备工作，消除缺陷。目前已做好内检的方案和相关备件的准备工作。

四、结语

在油冷变压器运行过程中，在线色谱监测及色谱数据分析对于油气中各种组分的分析能够真实有效反映变压器的内部过热或放电性情况，这对于尽早发现设备内部过热或放电性等潜伏性故障以及预防变压器内部过热或放电性故障有着重要的作用和实际意义。

数据分析论文:通信网管数据分析与应用

摘要：随着我国移动通信的迅猛发展，设备品种逐步增多，容量迅速增大，网管信息化的应用，积累了海量数据，本文结合自己在实际网管数据分析与应用中的经验，针对数据采集与整理、数据存储与查询、数据挖据三个过程积累的经验与大家分享。

关键词：网管数据；数据挖掘；物化视图

1 引言

随着我国移动通信的迅猛发展，设备品种逐步增多，容量迅速增大，网管信息化的应用，移动通信行业信息化进程得到巨大发展和广泛应用，运营网络系统、综合业务系统大量的历史数据。但在很多情况下，这些海量数据在原有的作业系统中是无法提炼并升华为有用的信息并提供给业务分析人员与管理决策者的。因此如何应用这量信息，给信息化工作者提出了挑战，我作为一名移动行业信息化工作者，结合自己在实际网管数据分析与应用中的经验，主要在数据采集与整理、数据存储与查询、数据挖掘三方面与大家探讨一下。

2 数据采集与整理

2.1 文本格式ftp传输

网管系统在每天定时将前一天的数据文件上传到指定的ftp服务器。数据文件为后缀txt的文本文件，指标之间的间隔符为“|”，指标按照第三节模板中定义的顺序排列，一条记录为一行。因为网管数据往往较大，为了提高传输速率及节省空间，建议将数据进行压缩处理。

2.2 数据按接口规范导入数据库

应用程序定时将网管数据解压缩，通过xml配置文件制定数据导入的规范，如下：

配置文件中规定了读取字段位置及存入数据库的字段名称，同时check中制定了数据的验证规则。如rang min=“0” max=“22”表示取值范围为0—22，如果超出该范围的数据则直接丢弃。

2.3 数据处理采用存储过程

存储过程（stored procedure）是在大型数据库系统中，一组为了完成特定功能的sql 语句集，经编译后存储在数据库中，用户通过指定存储过程的名字并给出参数来执行它。他有如下优点：

⑴提高数据库执行效率。使用sql接口更新数据库，如果更新复杂而频繁，则需要频繁得连接数据库。

⑵提高安全性。存储过程作为对象存储在数据库中，可以对其分配权限。

⑶可复用性。

3 数据存储与查询

网管数据往往是海量的，每一统计数据的一天数据都能轻易达到千万级，因此在存储过程中要重复利用数据的技术性能。在我们的实践过程中主要应用了oracle数据库。下面简单介绍我们主要采用的技术手段。

3.1 表分区

区致力于解决支持极大表和索引的关键问题。它采用他们分解成较小和易于管理的称为分区的片（piece）的方法。一旦分区被定义，sql语句就可以访问的操作某一个分区而不是整个表，因而提高管理的效率。分区对于数据仓库应用程序非常有效，因为他们常常存储和分析巨量的历史数据。

⑴增强可用性：如果表的某个分区出现故障，表在其他分区的数据仍然可用；

⑵维护方便：如果表的某个分区出现故障，需要修复数据，只修复该分区即可；

⑶均衡i/o：可以把不同的分区映射到磁盘以平衡i/o，改善整个系统性能；

⑷改善查询性能：对分区对象的查询可以仅搜索自己关心的分区，提高检索速度。

如我们可以按时间字段对导入数据进行分区，网管数据较大，一般一个月就需要一个分区。

3.2 索引技术

在关系数据库中，索引是一种与表有关的数据库结构，它可以使对应于表的sql语句执行得更快。但对于现在的各种大型数据库来说，索引可以大大提高数据库的性能。有两种类型的分区索引，全局索引和本地索引，使用本地索引，不需要指定分区范围因为索引对于表而言是本地的，当本地索引创建时，oracle会自动为表中的每个分区创建独立的索引分区。

3.3 物化视图

物化视图是包括一个查询结果的数据库对像，它是远程数据的的本地副本，或者用来生成基于数据表求和的汇总表。物化视图存储基于远程表的数据，也可以称为快照。使用物化视图可以实现视图的所有功能，而物化视图确不是在使用时才读取，大大提高了读取速度，特别适用抽取大数据量表某些信息以及数据链连接表使用。

4 数据挖掘

4.1 利用最小二乘法实现数据的

元线性回归

最小二乘法可以用来处理一组数据，可以从一组测定的数据中寻求变量之间的依赖关系，这种函数关系称为经验公式。能够寻求x与y之间近似成线性关系时的经验公式。假定实验测得变量之间的n个数据（x1，y1），（x2，y2），…，（xn，yn），则在xоy平面上，可以得到n个点pi（xi，yi）（i=1，2，…n），考虑函数y=ax+b，其中a和b是待定常数。如果pi（i=1，2，…n）在一直线上，可以认为变量之间的关系为y=ax+b。但一般说来，这些点不可能在同一直线上。记ei=yi-（axi+b），它反映了用直线y=ax+b来描述x=xi，y=yi时，计算值y与实际值yi产生的偏差。当然要求偏差越小越好，但由于ei可正可负，因此不能认为总偏差时，函数就很好地反映了变量之间的关系，因为此时每个偏差的绝对值可能很大。为了改进这一缺陷，就考虑用来代替。但是由于绝对值不易作解析运算，因此，进一步用来度量总偏差。因偏差的平方和最小可以保证每个偏差都不会很大。于是问题归结为确定y=ax+b中的常数a和b，使为最小。用这种方法确定系数a，b的方法称为最小二乘法。

4.2 数据自动修正算法描述

首先选择时间上最接近当前的14天的数据，加权平均为x，然后按照1.2x>x>0.8x的约束，进行筛选，这样新建站、数据异常等影响就会被消除。预测使用修正后的数据进行计算。

4.3 本地网预测修正

在本地网总趋势的基础上，利用历史同期的趋势按照就高不就低的原则进行修正。

4.4 单小区预测修正

在小区预测的基础上，利用本地网总趋势进行修正。修正过程为小区预测话务量与本地网预测话务量已载频数做加权平均。

5 技术架构

5.1 多层分布式架构方案

系统采用三层结构，将不同模块分别运行在不同的服务器上共同来精算系统的功能。每一种模块还可以再拆分在不同的服务器上运行实现负载分担，因此系统可以根据需要和用户的使用模式进行定制。这种结构具有比较大的灵活性。系统功能发生改变的时候，可以分模块单独部署，减少后期维护开发的工作量。

5.2 j2ee主流开发技术

表示层为整个系统提供外部展现，根据用户的使用习惯定制程序的操作流程。提高用户的使用感受。跨业界最广泛的操作系统环境，提供全j2ee编程模式，包括ibm os/400，linux，ibm aix，microsoft windows，hp-ux及sun solaris操作环境支持。最新的j2ee开发框架，大量的实际开发案例。系统符合最新的web 2.0规范，提高系统的相应速度。通过简单的应用编译和部署来最大限度降低管理要求。

数据分析论文:1996-2004中国面板数据分析

内容摘要：本文运用1996—2004年中国31个省份离退休退职人员保险和福利费用支出及其他相关数据分析了社会保障水平与经济增长的地区差异。研究发现：养老金支付水平对经济增长的贡献存在显著地区差异，东西部地区养老金支付与经济增长的关系不显著；而中部地区，养老金支付水平及其对经济增长的贡献，则都呈“塌陷”态势。因此，根据地区特点完善社会保障政策相当重要。

关键词：养老金／工资替代率／区域经济增长

一、引言

长期以来，有关社会保障水平与经济增长关系的研究很清晰地分为两派：奉行“瓦格纳法则”的公共经济学派和遵从“凯恩斯主义”的宏观经济学派。前者认为社会保障支出如其他财政支出一样是一种行为变量，会随产出增加而增加；后者则认为社会保障支出是外生的公共政策工具，转移支付完全可以成为抑制短期经济波动的稳定器。从一般意义上讲，实施和改革社会保障制度，尤其是养老保险制度，并不以促进经济增长或改善经济运行为目标，其主旨在于保护弱势群体，构建社会安全网。但只要可能，都会考虑最小化对经济的负面影响，换句话说，在不牺牲社会保护目标的前提下促进经济增长。因为只有运行良好的经济才能提供足够的老年保障。

当中国经济经历20世纪90年代中后期的高通胀、高增长和软着陆后，政府尝试各种手段拉动内需。1996-2004年，全国离退休退职人员保险福利费用总额由1797.69亿元增加到4814.85亿元，年均增长13.60%；离退休退职人员离休金、退休金、退职生活费用(下统称养老金)总额由1552.20亿元增加到 4249.75亿元，年均增长12.50%；人均养老金由4923元增加到9090.20元，年均增长率9.41%。扩大社会保障支出，提高离退休退职人员待遇，似乎不仅仅是社会保障制度改革本身的需要。1996年起，养老、失业、医疗等各项社会保障基金纳入财政专户实行收支两条线管理，养老金的转移支付性质进一步加强。为保证所需资金，1998年起，中央对财政困难的老工业基地和中西部地区给予补助，地方财政对基本养老基金收支缺口给予补助。1998-2004年，中央财政列支的社会保障补助支出从14.15亿元增长到 195.66亿元，地方财政列支的社会保障补助支出从 135.86亿元增长到1328.84亿元。经济发展水平相对落后的中西部，其人均保险和福利费用以及人均养老金的年均增长率超过东部。

社会保障与经济增长到底存在什么样的逻辑关系?对我国东中西部地区经济发展的影响是否相同?我们有必要弄清以上问题并展开地区间的比较研究，这对完善中国社会保障制度意义深远。本文结构安排如下：第二节概述相关理论和文献；第三节描述1996-2004年中国离退休人员人均养老金、保险和福利费用支出、工资替代率及经济增长指标的地区差异；第四节构建模型、分地区检验模型及系数显著性；最后在第五节得出结论并提出相应政策主张。

二、现有理论和文献

狭义的社会保障是指老年、遗属、伤残等社会保险缴费与收益计划，且鉴于时间和截面数据的可获得性，多数国外理论研究都以公共养老金水平代表狭义的社会保障水平(galenson，1968；feldstein， 1974；bellettini和ceroni，2000；等等)，并常用工资替代率即养老金水平与工资水平之比进行定义社会保障水平和公平程度。由于社会保障在重新配置资源的同时调整了人们的消费、储蓄和人力资本投资行为，因此关于社会保障产出效应的研究众多，其实证研究始于20世纪60年代，讨论集中在社会保障与经济增长是否存在因果关系和不同经济发展水平下的社会保障产出效应是否存在程度差异。

关于社会保障与经济增长因果关系，研究的主线之一是社会保障——消费与储蓄——经济增长。自harrod(1948)谈论“峰值储蓄”之后，经济学家开始意识到在工作期间为退休时期的消费进行储蓄的重要性。社会保障的潜在效应虽然被ando和 modigliani(1963)生命周期假说所忽略，但他们已经将社会保障财富变量加入消费方程。feldstein (1974)则运用该假说，通过构建包含持久收入、未分配利润、不含社会保障财富的家庭财富和社会保障家庭财富变量的消费函数分析了美国1929-1971年(不含1941~1946年)的社会保障、个人储蓄和资本形成关系，认为：现收现付制社会保障具有“资产替代效应”和“退休效应”，个人净储蓄取决于两者之和，社会保障会通过挤出私人储蓄减少资本积累。不过，社会保障通过挤出私人储蓄减少资本积累并不能直接说明社会保障与经济增长的关系，更何况feldstei。(1974)的研究遭到了质疑和挑战 (leimer和lesnoy，1982)。smith(1975)认为实际人均gdp的增长与除去转移支付的公共支出存在负相关，如果考虑包括转移支付在内的公共支出的话，相关关系微弱且不显著，但至少说明一个国家征税并进行转移支付对经济增长无害。singh和 sahni(1984)尝试采用granger因果关系检验研究了 1950~1981年印度的社会保障支出和经济增长关系，发现：社会保障支出和经济增长存在溢出和反馈两重效应，“瓦格纳法则”和“凯恩斯主义”均不适用。自ban。(1990)构建内生增长模型研究政府消费性支出与经济增长率关系后，不少经济学家又从社会保障收入关联缴费受益机制寻觅到另一条研究路径，那就是，社会保障——代际转移支付与人力资本投资——经济增长。becker(1990)认为，社会保障是一种社会契约，年青一代向老一代转移资源回报老一代曾给予的人力资本投资，而这种人力资本投资很可能成为经济增长的源泉。bellettini和 berti ceroni(1999)认为，在财政政策是代际博弈所内生决定的情况下，与工资指数挂钩的养老金收益会激发人们对公共基础设施投资的热情，因为这种投资会增加私人物质资本的投资回报，进而增加养老金。而通过社会保障的再分配能减少人力资本投资的风险，对人力资本投资具有正的动态效应，从而促进经济增长。lambrecht(2005)在蕴含教育投资和遗赠的叠代模型研究了非基金制社会养老保险规模与经济增长的关系，认为当家庭面临预算约束无法实现最优教育投资时，非基金制社会养老保险能够促进经济增长。

关于不同经济发展水平下社会保障产出效应的异同，学者们莫衷一是。galenson(1968)研究了20个发达国家、10个次发达国家和10个不发达国家 1955~1964年的数据。就20个发达国家看，劳动和资本对经济增长的贡献率都非常显著，它们可以解释一半以上的经济增长，且劳动的贡献率大于资本的贡献率，但很难判断社会保障支出和经济增长的因果关系；就10个次发达国家看，资本变量对经济增长更具解释力，社会保障支出对经济增长的促进关系相对明显，因为这些国家的经济体系都在趋于成熟，最容易创新和从人力资本投入要素增长上获益；就10个不发达国家看，资本、劳动和社会保障与经济增长的关系都不明显。其结论就是：当经济处于发展的较高阶段时，国家完全有能力提供社会保障，但并不会对经济增长形成贡献；当经济处于发展的初级阶段时，社会保障难以被提供，它们对经济增长的贡献也很小；当经济处于发展的中级阶段，对那些已经实现自我持续发展的国家来说，社会保障对提高生产力具有巨大潜力。实际上国别研究的结论极为不一致。比如同是研究oecd国家，都是把实际gdp或实际人均gdp作为因变量，一些研究就认为社会保障支出与经济增长的相关性并不十分显著(smith，1975；landau，1985；hansson和herrenkeson，1994)，一些研究则认为社会保障支出与经济增长显著相关(sala-i-martin，1996；bellet- tini和ceroni，2000)。到底是正相关还是负相关仍无定论。sala-i-martin(1996)在研究不同经济发展水平下的趋同和趋同问题中考察了初始gdp水平、政府支出占gdp比例、总投资占gdp比例、除国防和教育以外的政府消费占gdp的比例以及社会保障转移支付占gdp比例对经济增长的贡献，认为：社会保障对经济增长的贡献为正。bellettini和ceroni(2000)分析了61个国家1970年到1985年的截面和面板数据，考虑了人们的受教育程度、政府消费支出占名义gdp的比例、社会保险和福利支出占名义gdp的比例、用于描述被扭曲程度的黑市贴水对数、投资(包括私人和公共)占实际比例、按当前国际价格计算进出口占比例等多个变量，认为只要社会保障支出和经济增长存在显著统计相关，那一定是正相关，但相关程度不一。在贫困国家，社会保障支出较低，相关系数更强。可见，无论是从理论还是经验角度看，社会保障与经济增长的关系都没有定论。不同经济发展水平下的社会保障产出效应差异是一个值得进一步研究的问题。 gupta等(2005)在研究低收入国家财政政策和公共支出结构时引入转移支付变量，认为增加政府机构工作人员工资和公共转移支付，至少在短期内能够促进经济增长。

国内的经验研究多集中在如何以一定的经济增长保证社会保障改革，甚至于认为要求gdp增长的压力之一来自社会养老保险，因为未来25年养老金缺口预计将达到1.8万亿人民币，年均缺口 700多亿(周天勇，2004)，而对于社会保障支出是否也存在产出效应研究不足。不过，有关公共支出对区域经济增长贡献的研究逐步增多，总体结论都是政府的转移支付和购买性支出对经济增长有积极影响(郭杰，2003)，20世纪90年代实行的财政政策取得了明显效果(欧阳志刚，2004)，且教育投入、公共卫生投资对区域经济增长的贡献率存在差异(陈浩等，2004；王远林等，2004；胡永远等，2004)。同时，少数学者也开始关心社会保障的地区差异。林治芬(2002)研究了全国各地区的财政社会保障补助支出和财政全部社会保障支出占其财政支出的比重两项指标，发现：上海、北京、浙江、江苏、广东等经济发达的地区，其财政的社会保障支出比重名次与其经济实力排名顺序基本一致；辽宁、天津、重庆、黑龙江、吉林、青海等地，其经济发展的名次靠前，但财政的社会保障支出比重名次却明显靠后 (比重庆)；西藏、贵州、广西、四川、甘肃地区，虽然经济比较落后，但财政的社会保障支出比重却跃到了经济发达地区的数值区间。数据表明：社会保障的地区差异与其经济发展程度有关，但并不完全取决于经济发展一个因素，与产业结构和经济体制的关联度也很高。尽管理论界没有论证社会保障支出和经济增长的关系，但通过完善保障体系促进国内消费的观点却相当盛行。政府部门认为建立和完善社会保障体系，是促进国内消费、拉动经济增长的重要基础和前提条件之一(《人民日报》1999年11月29日)。国家制定的“两个确保”的方针——确保下岗职工基本生活费发放和确保企业离退休人员养老金按时足额发放——不仅是社会稳定的需要，也成为经济发展的需要。

三、描述性统计

如同经济发展存在地区差异一样，中国的老年保障水平也存在明显的地区差异。不过并非由东至西梯度递减，而是呈u型分布，中部地区明显塌陷。这可以从区域间差异、省份间差异以及区域内的省际间差异进行分析。

区域数据表明(见表1)：就相对待遇水平看， 1996-2004年8年间，东中西部养老金工资替代率平均数分别为63.37%，76.63%和79.93%，经济最发达的东部地区工资替代率最低，中部次之，西部最高，梯度递减吻合工资替代率随经济发展、工资水平上升而自然下降的规律；但就绝对待遇水平看，东中西部离退休退职人员人均保险和福利费用水平分别为8262.23元／人、6767.09元／人、 8844.93元／人，人均养老金水平分别为6907.67元／人、5900.71元／人、7714.40元／人，经济发展水平(以实际人均gdp简单衡量)在西部之上的中部其在职职工平均工资水平、离退休退职人员人均保险福利水平和人均养老金水平均低于西部。可见，工资替代率递减只是中部地区工资水平和养老金水平“双低”的结果。

研究各省份数据发现(见表2)：就离退休退职人均养老金看，1996年到2004年，西藏、青海的最高，其次是浙江和新疆，中部省份最低；就工资替代率看，由高到低，排名前三位的是新疆、西藏、贵州，分别为88.52%、88.13%和86.90%，上海最低，为 41.99%，其次是广东和北京。全国31个省份的平均工资替代率为72.44%，东部12个省份中除河北山东外有10个省份工资替代率低于全国平均资替代率；中部9个省份除黑龙江和湖南外有7个省份的工资替代率高于全国平均工资；西部10个省份除重庆、四川、宁夏外有7个省份的工资替代率高于全国平均工资。这既是国家给予西部政策倾斜的结果，也是区域经济发展不平衡的产物。长期以来，国家在部分西部省区实施“高工资高福利”政策，比如：国家财政一直对西藏进行补贴，西藏是唯一实行全民医疗保障的省份，其离退休退职人员保险和福利待遇水平和养老金居全国第一；新疆生产建设兵团的待遇水平也一直较高。如果剔除西藏，西部的工资替代率迅速下降近2个百分点。同时，标准差、峰度系数、偏度系数也显示西部省际间的差异最大、而中部最小(如表1)。进一步研究工资替代率的变化还发现：1996—2004年9年间，全国的工资替代率平均下降1.55%，东部和中部平均下降速度相差不大，西部下降最慢，仅为1.38%。显然，工资替代率和社会保障水平的区域差异如同经济水平的差异一样是不争的事实。值得研究的是，欠发达地区相对较高的保障水平对经济增长究竟起到了什么样的作用。

四、计量分析

对于经济增长的实证研究经常从生产函数入手，从物质资本、劳动力、技术进步以及政策环境等方面来分析各变量对经济发展的影响，涉及到的因素有初始经济发展水平、物质资本积累、劳动人口数量、劳动力质量、经济开放程度、市场化程度、社会保障水平等(bellettini，c&ceroni，2000；barro， 1991；dewan。2001；等等)。多数研究选取gdp或人均gdp的增长率为被解释变量，通过构建线形、对数线形或双对数线形模型，运用ols、gls、gmm方法进行分析检验。本文借鉴国内外关于经济增长的主流研究，选取下列控制变量，建立经济增长(以gdp的增长率来衡量)回归模型如下：

其中，a1到a7均为待估参数，εi,t代表随机误差，各变量的含义说明(见表3)：

因为只根据样本本身对其自身特征进行分析，宜采用固定效应模型；考虑到区域内的省份间差异存在，异方差很可能对估计式存在影响，序列相关可能导致估计式有偏，因此，采用广义最小二乘 (gls)进行回归。回归结果(见表4)：

如表4，由于兼顾发达和不发达地区及样本数量关系，全国的回归方程的系数稳定性较好。政府支出占总产值比重、固定资产投资比例、进出口总额比例、就业人口占总人口的比重与经济增长在1%水平显著相关，各变量的系数的符号都符合经济预测。其中，经济增长速度同政府干预负相关，与投资率、开放程度、就业率等正相关。而社会保障水平在1%的概率下对经济增长产生负面影响。

就分地区数据看，在东部，地区开放程度、投资率、人力资本存量、就业率对经济增长起到了显著的推动作用，其系数均在5%以下的概率水平上与 gdp增长率正相关，这与国内外研究结果一致。而养老金总额占cdp的比例与经济增长的关系不显著；对中西部而言，在各控制变量中，投资比重对经济增长的推动最为显著，其次是地区开放程度，在 10%概率水平上与经济增长正相关。而考虑到社会保障水平，在西部，社会保障与经济增长的关系不显著；而在中部，社会保障在1%概率水平上与经济增长负相关，且其回归系数远大于其他控制变量的系数。相对于其他影响经济增长的因素而言，社会保障对中部经济增长的负面影响值得关注。

五、结论与政策建议

以上经验研究一方面验证了不同的经济发展阶段和水平下社会保障支出对经济增长的贡献不同这一命题；一方面更引发了如何缩小地区差异和贫富差异的理论思考。我们熟知中国各地区的经济增长是在不同水平上起步的，经济增长的区域差距长期存在。20世纪90年代后的经济发展更成为一个“零和博弈”，在增长的同时，经济个体的贫富差距和经济总量的区域差距逐渐拉大。党的十六届四中全会已明确提出“构建社会主义和谐社会”的执政目标，因此从缩小区域发展不平衡角度出发，根据地区特点完善社会保障政策相当重要。

经济最为发达的东部地区，社会保障改革的步伐也最快，尤其是养老保险制度已基本成熟。尽管工资替代率是一个随工资水平上升而自然下降的过程，部分省市的工资替代率接近发达国家水平是一个无可厚非的正常现象，但在社会补充养老保险、商业养老保险没有充分发展的情况下，我们要特别关注老年人贫困，在政策重心应放在“低保”人群的同时，尽可能地让老年人分享社会发展成果。西部地区的经济总量水平偏低，财政供养人口比例偏高，大量就业集中在政府部门，因此养老保险待遇水平较高。“吃饭财政”从某些角度讲影响了地方政府对地方经济发展的支持力度，同时过高的工资替代率很有可能滋生劳动力市场的败德行为。目前，中部的问题最为严重。伴随西部大开发战略的提出，中部地区逐步丧失了原有的产业优势、区位优势、体制优势、地域文化优势和资源优势等，成为政策边缘化地区。其经济总量和总体发展水平不仅大大低于东部沿海发达地区，而且也显著低于全国平均水平。就社会保障看，无论是绝对水平还是相对水平，是与经济增长同步的联动效应还是对经济增长的产出效应，中部均成“塌陷”态势。分析这种“塌陷”的根源和内在机制，是研究中部振兴的重要方面。虽然中部崛起理论已经被明确提出，但短期内构建新的发展优势的内在动力不足。因此在加大二次分配力度的同时，更需要做大整个财富蛋糕。这才有可能真正构建区域结构的和谐发展。

数据分析论文:探讨统计数据分析体系中统计分析方法的选择与比较

一、数据统计分析的内涵

数据分析是指运用一定的分析方法对数据进行处理，从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中，数据统计分析能使我们挖掘出数据中隐藏的信息，并以恰当的形式表现出来，并最终指导决策的制定。

二、数据统计分析的原则

（1）科学性。科学方法的显著特征是数据的收集、分析和解释的客观性，数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。（2）系统性。市场调研是一个周密策划、精心组织、科学实施，并由一系列工作环节、步骤、活动和成果组成的过程，而不是单个资料的记录、整理或分析活动。（3）针对性。就不同的数据统计分析方法而言，无论是基础的分析方法还是高级的分析方法，都会有它的适用领域和局限性。（4）趋势性。市场所处的环境是在不断的变化过程中的，我们要以一种发展的眼光看待问题。（5）实用性。市场调研说到底是为企业决策服务的，而数据统计分析也同样服务于此，在保证其专业性和科学性的同时也不能忽略其现实意义。

三、推论性统计分析方法

（1）方差分析。方差分析是检验多个总体均值是否相等的一种统计方法，它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响，比如它们之间有没有关联性、关联性的程度等，所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。（2）回归分析。在数据统计分析中，存在着大量的一种变量随着另一种变量的变化而变化的情况，这种对应的因果变化往往无法用精确的数学公式来描述，只有通过大量观察数据的统计工作才能找到他们之间的关系和规律，解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。

四、多元统计分析方法

（1）相关分析。相关分析是描述两组变量间的相关程度和方向的一种常用的统计方法。值得注意的是，事物之间有相关关系，不一定是因果关系，也可能仅仅是伴随关系；但如果事物之间有因果关系，则两者必然存在相关关系。（2）主成分分析。在大部分数据统计分析中，变量之间是有一定的相关性的，人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。所谓的主成分分析就是利用降维的思想，把多指标转化为几个综合指标的多元统计分析方法，很显然在一个低维空间识别系统要比在一个高维空间容易的多。（3）因子分析。因子分析的目的是使数据简单化，它是将具有错综复杂关系的变量综合为数量较少的几个因子，以再现原始变量与因子之间的相互关系，同时根据不同因子，对变量进行分类。这些因子是不可观测的潜在变量，而原先的变量是可观测的显在变量。（4）聚类分析。在市场调论文联盟//研中，市场细分是最常见的营销术语之一，它按照一定的标准将市场分割为不同的族群，并使族群之间具有某种特征的显著差异，而族群内部在这种特征上具有相似性。聚类分析就是实现分类的一种多元统计分析方法，它根据聚类变量将样本分成相对同质的族群。聚类分析的主要优点是，对所研究的对象进行了全面的综合分析，归类比较客观，有利于分类指导。（5）判别分析。判别分析是判别样品所属类型的一种多元统计方法。若在已知的分类下，遇到新的样本，则可利用此法选定一种判别标准，以判定将该新样品放置于哪个类中。由定义我们可以知道判别分析区别于聚类分析的地方，而在判别分析中，至少要有一个已经明确知道类别的“训练样本”，从而利用这个数据建立判别准则，并通过预测变量来为未知类别的观测值进行判别。与聚类分析相同的地方是，判别分析也是利用距离的远近来把对象归类的。

数据分析论文:环境空气检测数据分析及处理方法

摘要：随着社会的快速发展，人们的生活水平越来越高，同时伴随着而来的是环境质量的下降，现在城市空气质量问题屡亮红灯，人们越来越关注环境的质量。现代科技的快速发展，使得在环境空气检测方面人工检测的越来越少，自动检测的越来越多，给人们带来了很多的方便。本文分析环境空气检测的数据，对一些异常数据的检测判断分析，以及对这些异常数据该如何正确的处理。

关键词：环境空气检测；数据分析；处理方法；异常数据

环境空气自动检测系统早已在空气质量检测中运用娴熟，在我国的各个城市的空气质量检测得到广泛的运用。环境空气自动监测系统是基于干法仪器的生产技术，利用定电位电解传感器原理，结合电子技术和网络通讯技术，研制、开发出来的最新科技产品，是开展城市环境空气自动监测的理想仪器。

目前，我国有上百个城市都运用了此系统来进行城市空气质量的检测。但是，这个系统也并不是百利无一害的，因为检测中会面临一些气候异常现象、还有设备的维修、断电现象，诸如此类的现象会导致环境空气自动检测系统出现一些异常数据，这就需要工作人员对这些异常数据进行分析探讨，促进环境空气质量检测数据的标准化。

1环境空气自动检测系统的组成部分

环境空气自动检测系统可对环境空气质量进行24小时自动连续检测。该系统由检测中心站、检测子站和质量保证实验室组成。其中空气环境检测子站包括采样系统、气体分析仪器、校准装置、气象系统、子站数据采集等。子站检测的数据通过电话线传送至环境检测中心站进行实时控制、数据管理及图表生成。

检测的项目为：so2、no、no2、nox、co、o3、pm10、气象的五个参数（即：风向、风速、温度、相对湿度、大气压力）子站计算机可连续自动采集大气污染监测仪、气象仪、现场校准的数据及状态信息等，并进行预处理和贮存，等待中心计算机轮询或指令。采样集气管由采样头、总管、支路接头、抽气风机、排气口等组成。远程数据通讯设备由调制解调器和公用电话线路组成，有线调传或直接使用无线pc卡（支持gprs）。

2异常数据

环境空气自动检测系统在24小时无人值班的情况下检测中，经常会出现一些异常数据。据统计，我国每年实时检测的上万个检测数据中有0.95%——3.18%的异常数据，这些数据主要表现在一下几个方面：

2.1可预知的异常数据

有的异常数据是因为仪器自身出现的故障、断电等问题产生的，这种可预知的数据一般而言是不需要进行分析的，这种可预知的异常数据被视作为无效数据，不参与均值计算。

2.2数据出现负值

出现负值的数据会有两种情况，第一种是：检测的环境中气体浓度极低，接近于仪器的零点值，这个时候会因为仪器的零点漂移而产生负值的数据。第二种是因为仪器本身的故障导致的负值，这种就作为无效数据，不予分析。

2.3数据在零值附近徘徊

单个检测子站的某项污染物的浓度出现极高值时，就会导致数据在零值附近徘徊5个小时以上。这个时候，要根据周围的环境、气象、风向等来分析判断。

2.4突然产生的异常数据

有的时候，当外界环境发生急剧的变化时就会导致检测的数据突然的发生异常情况，一般情况下只有当发生突然的空气污染问题时才会出现这种情况，也就是空气中某一

或者几种大气污染物的浓度突然的急剧增加。这种情况需要工作人员根据当地的环境和以往的经验进行判断分析数据，对出现的异常数据进行正确的取舍，将无效的数据不参与均值计算。

3处理方法

子站临时停电或断电，则从停电或断电时起，至恢复供电后仪器完成预热为止时段内的任何数据都为无效数据，不参加统计。恢复供电后仪器完成预热一般需要0.5～1 小时。

对于低浓度未检出结果和在监测分析仪器零点漂移技术指标范围内的负值，应该取监测仪器最低检出限的1/2 数值，作为检测结果参加均值计算。

有子站自动校准装置的系统，仪器在校准零/跨度期间，发现仪器零点漂移或跨度漂移超出漂移控制限，应从发现超出控制限的时刻算起，到仪器恢复到调节控制限以下这段时间内的检测数据作为无效数据，不参加均值计算，但要对该数据进行标注，作为以后的参考数据保留。

对于手工校准的系统，仪器在校准零/跨度期间，发现仪器零点漂移或跨度漂移超出漂移控制限，应从发现超出控制限时刻的前一天算起，到仪器恢复到调节控制限以下这段时间内的监测数据作为无效数据，不参加统计，但对该数据进行标注，作为参考数据保留。

在仪器校准零/跨度期间出现的异常数据作为无效数据，不参加统计，但应对该数据进行标注，作为以后仪器检查的依据予以保留。

结束语

随着社会的发展，环境保护工作受到的关注越来越多，城市规模的不断扩大给城市环境带来了各种各样的问题，人们对环境质量的要求也越来越高。对环境的保护很重要的根据就是环境空气检测的数据，这些数据是做好环境保护工作的依据。而在环境空气检测系统中经常会出现一些异常数据。对这些异常数据，先判断是否是因为仪器自身的故障而产生的数据，排除这些无效的数据之外的异常数据，要根据具体情况进行分析，寻找出出现异常数据的原因，然后找出解决问题的具体方法，保证环境检测系统能够健康安全的运转下去，为环境保护工作贡献自己的一份力量。

数据分析论文:中国青少年发展状况统计数据分析报告

【摘要题】青少年社会调查

【正文】

中国拥有世界上最为庞大的青少年人口群体。统计表明，2003年中国14～35岁人口有4.65亿，占总人口的36.25%。对于任何社会来说，青少年都是民族的未来与希望。中国社会正处于改革开放的时代，现在的青少年是变革的弄潮儿、受益者和风险承担者，他们正在经历着我国社会经济等方面的重大变革，发展变化的速度很快。客观、准确地了解和掌握青少年的现状，才能从实际出发，制定有效的政策，从而正确引导青少年，把青少年一代培养成为有理想、有道德、有文化、有纪律的社会主义新人。本报告主要是依据统计数据对近年来中国青少年发展状况进行分析，所采用的数据均为撰写本报告时（截至2005年7月31日）中国青少年发展状况指标体系中各项指标所能获得的最新数据。在本报告中青少年采用14～29岁和14～35岁两种年龄统计口径。

一、青少年人口状况指标

1.青少年人口总数及比重

2003年人口变动抽样调查数据显示，全国14～29岁青少年共有311，217，923人，占总人口的24.25%。其中男性158，338，086人，女性152，879，837人，分别占总人口的12.34%和11.91%，性别比为103.57。14～35岁青少年共有465，259，674人，占总人口的36.25%。其中男性235，453，157人，女性229，806，517人，分别占总人口的18.34%和17.90%，性别比为102.46。

2.青少年人口性别年龄构成

分性别年龄结构反映的是男女不同性别人口的年龄分布情况。2003年中国青少年分性别人口的年龄分布基本一致，无论是男性还是女性，在其总人口中都是30～35岁人口所占比例最高，其次是14～20岁人口。人口年龄结构在20～30岁之间出现凹陷，除了自然的人口变动规律（如受人口惯性发展的影响）以外，与该年龄人群的漏报也有较大关系。因为这一年龄段人群处于流动活跃时期，而流动人口的漏报是统计中很难避免的。同时，我国军人也主要集中在这个年龄段，而军人人数是不在统计数据中反映的，这也加大了凹陷的程度。

3.青少年人口分布状况

人口的分布状况主要由地区构成和城乡构成两项指标来衡量。2000年第五次人口普查时，14～29岁的青少年人口广东省为最多，达2900万人，西藏最少，仅为82万人。各省市青少年占总人口的比重集中在24.01～34.03%区间范围内，广东省比重最高，达34.03%，最低的为江苏省，占24.01%。14～35岁的青少年人口数分布与14～29岁的青少年人口数分布接近，比重略有差异。各省之间青少年人口差异与各省总人口和它们过去的生育率、死亡率、迁移率的变化都有密切关系。

2003年14～29岁青少年人口31，122万人，居住在城市的有7817万人，占青少年人口的25.12%，居住在镇的有4718万人，占15.16%，居住在乡的有18，587万人，占59.72%。14～29岁青少年人口城镇化水平40.28%略低于我国40.53%的城镇化水平。14～35岁青少年人口46，526万人，居住在城市的有12，165万人，占青少年人口的26.15%，居住在镇的有7234万人，占15.55%，居住在乡的有27，127万人，占58.31%。14～35岁青少年人口城镇化水平41.69%又略高于全国平均水平。

4.青少年人口的迁移

2000年第五次人口普查时，我国迁移人口有12，466，250人，其中14～29岁6，749，193人，占迁移总人口的54.14%，14～35岁8，396，246人，占迁移总人口的67.35%。迁移原因以务工经商、学习培训、婚姻迁入为主，占迁移总人口的七成之多（见图1-3a和图1-3b）。从全国迁移情况来看，学习培训、分配录用、婚姻迁入、务工经商主要是以青年人口为主，均占80%以上。

5.青少年人口的受教育状况

随着我国社会经济的发展，受教育程度普遍提高，14～29岁青少年人口有98.33%受过小学以上教育，14～35岁青少年人口比例略低一点(97.14%)，但仍以初中教育程度为主，分别占55.13%和50.34%。这与青少年正处于学习求知年龄不无关系。从全国总人口受教育情况来看，青少年人口受教育程度明显好于其他年龄人口，初中以上各级文化程度人口中，14～29岁人口基本占40%左右，14～35岁人口基本占60%左右。

6.青年人口的婚姻状况

青年人正处于组建家庭时期，15～29岁青年未婚人口占64.03%，有配偶占35.53%，随着年龄的增长，有配偶的比例逐渐增大，15～35岁青年未婚人口占43.36%，有配偶占55.02%。青年人口婚姻关系比较稳定，无论是在15～29岁青年人口中还是在15～35岁青年人口中，丧偶、离婚和再婚有配偶的比例都非常低，分别为0.7%和1.62%。

7.青年人口生育状况

青年人口不同于老年人口和少年儿童人口，随着其生理和心理的发育成熟，开始组建家庭哺育后代。从生育的年龄分布来看，青年正处于生育高峰期。根据2003年全国人口变动抽样调查数据计算，全国一般生育率为38.01‰，总和生育率为1.4‰，29岁组累计生育率为1164.79‰，35岁组累计生育率为1375.93‰。

8.青少年人口死亡状况

青少年人口处于风华正茂、生命力旺盛、死亡率水平最低时期。青年人口死亡率随着年龄的增长略有增长，但增长幅度不大，基本在0.28～1.38‰的小区间范围内波动增长。根据2003年全国人口变动抽样调查数据计算，全国死亡率水平为6.05‰，青少年人口死亡率远远低于全国平均水平，14～29岁的死亡率仅为0.85‰，14～35岁的死亡率为0.95‰。

9.青年人口的民族状况

我国是一个多民族国家，在960万平方公里土地上居住着56个民族，每个民族都有自己的青少年人口。2000年第五次人口普查时，汉族仍是我国的主体民族，14～29岁青少年人口中有90.58%为汉族，9.42%为少数民族；14～35岁青少年人口中汉族比例略高，为91.09%，少数民族占8.91%。少数民族中壮族、满族、回族、维吾尔族、苗族、彝族、土家族、蒙古族、藏族人数最多，人口比例均占0.5%以上。

二、青少年受教育状况指标

1.教育事业基本情况

2003年我国有普通高等学校1552所；普通中等学校89398所，其中普通中等专业学校3065所，普通中学79490所（高中15779所，初中63711所），职业中学6843所。普通高等学校专任教师72.5万人；普通中等学校专任教师502.5万人，其中普通中等专业学校专任教师19.9万人，普通中学专任教师453.7万人（高中专任教师107.1万人，初中专任教师346.7万人），职业中学专任教师28.9万人。

从招生情况来看，2003年普通高等学校招生382.2万人；普通中等学校招生3353.4万人，其中普通中等专业学校招生183.9万人，普通中学招生2947.4万人（高中招生752.1万人，初中招生2195.3万人），职业中学招生222.1万人。

从在校学生数来看，2003年普通高等学校在校学生1108.6万人；普通中等学校在校学生9613.8万人，其中普通中等专业学校在校学生502.4万人，普通中学在校学生8583.2万人（高中在校学生1964.8万人，初中在校学生6618.4万人），职业中学在校学生528.2万人。

从毕业生数来看，2003年普通高等学校毕业187.7万人；普通中等学校毕业2737.7万人，其中普通中等专业学校毕业148.4万人，普通中学毕业2453.7万人（高中毕业458.1万人，初中毕业1995.6万人），职业中学毕业135.5万人。

2.各级各类学校数

随着我国社会经济的发展，教育事业也获得了长足的发展。从1990年到2003年，我国普通高等学校数增加了近一半，由1990年的1075所增加到2003年的1552所，平均每年增加37所普通高等学校。近十几年间，在普通高等学校规模增加的同时，普通中等学校的规模却在不断缩减，已由1990年的100777所减至2003年的89398所，共减少11379所普通中等学校，其中主要是初中学校数的减少造成普通中等学校大规模的减少，初中在1990年到2003年十四年间减少了8242所，占所减少的普通中等学校的72.4%。

3.各级各类学校教职工数

与各级各类学校规模变化不同的是教职工人数的总体增加。1990年到2003年，普通高等学校教职工由100.6万人增加到145.3万人，增加了44.7万人，增长了近一半。普通中等学校规模虽缩减了，但教职工人数仍增加了，由1990年482.6万人增加到2003年624.4万人，增加了141.8万人，增长了29.4%。值得关注的是，普通中等学校教职工人数的增加主要是以普通中学教职工增加为主，而社会所需的中等专业学校（包括中等技术学校和中等师范学校）教职工人数却是在减少。

4.各级各类学校专任教师数

各级各类学校教职工数的变化主要是专任教师数的变化导致的。1990年到2003年，普通高等学校专任教师由39.5万人增加到72.5万人，增加了33万人，增长了近一倍。普通中等学校专任教师也由1990年的349.2万人增加到2003年的502.5万人，增加了153.3万人，增长了43.9%。同样的，普通中等学校专任教师人数的增加主要是以普通中学专任教师增加为主，而社会所需的中等专业学校（包括中等技术学校和中等师范学校）专任教师人数却是在减少。

5.各级各类学校在校学生数

自从2000年扩招以来，我国无论是普通高等学校，还是普通中等学校在校学生人数都有了显著增长。2000年到2003年，普通高等学校在校学生由556.1万人增加到1108.6万人，增加了552.5万人，增长了近一倍。普通中等学校在校学生增长幅度虽不如普通高等学校，但也由2000年的8518.5万人增加到2003年的9613.8万人，增加了1095.3万人，增长了12.9%。值得关注的是，在各级各类在校学生普遍增加的情况下，中等师范学校在校学生非但没有增加反而减少了，2000年到2003年间，减少了16.9万在校生，2003年在校生数仅为2000年在校生数的78%。

6.各级各类学校招生数

2000年以来，普通高等学校和高中的招生规模都有了很显著的扩大，分别由2000年的220.6万人和472.7万人扩大到2003年的382.2万人和752.1万人，几乎都翻了一倍。初中和中等师范学校的招生规模却在缩减，尤其是初中，由2000年2263.3万人缩减到2003年2195.3万人，缩减了3%的招生规模。

7.各级各类学校毕业生数

近几年来，普通高等学校和普通中学的毕业生都有所增加，分别由2000年的95万人和1908.6万人增加到2003年的187.7万人和2453.7万人，普通高等学校的毕业生几乎翻了一倍；而中等专业学校和职业中学毕业生有所减少，分别由2000年的150.7万人和176.3万人减至2003年148.4万人和135.5万人。

8.研究生和留学生数

从2000年开始我国加大了研究生培养力度，扩大了招生规模，增加了在学人数。2000年时，我国研究生在学人数为301239人，招生128484人，毕业58767人；2003年，我国研究生在学人数已为651260人，招生268925人，毕业111091人，都增长了一倍之多。

2000年以来，我国出国留学人员显著增多，学成回国留学人员也略有增多。2000年，我国出国留学人员38989人，学成回国留学人员9121人；2003年我国出国留学人员增加到117307人，比2000年增加了78318人，是2000年的3倍，学成回国留学人员增加到20152人，比2000年增加了11031人，是2000年的2.2倍。

9.技工学校和学生数

2003年以来，技工学校规模一直在缩减，与此相反，技工学校的招生人数和在校学生数经过一段低谷后又开始缓慢增多。截至2003年我国有技工学校2970所，在校学生193.1万人，毕业生45.3万人，招生91.6万人，教职工20.2万人。

10.初中毕业生升学率

2003年我国初中毕业生升学率为60.2%，2000年到2003年初中毕业生升学率明显提高，仅用4年的时间就提高了10个百分点，1990年到2000年同样是提高10个百分点却用了10年的时间。

11.各地区按城乡分普通中学学校及在校学生数

2003年，我国共有普通中学79490所，49.74%集中在农村，有39539所，31.03%在县镇，有24662所，19.23%在城市，有15289所。普通中学中的高中有15779所，主要还是集中在城镇，农村甚少，只有2288所，占14.50%，而城市有6300所，占39.93%，县镇有7191所，占45.57%。在我国31省市自治区中，河南省普通中学最多，有6363所，西藏最少，仅有105所。

2003年，我国共有普通中学在校学生8583.2万人，其中39.27%集中在农村，有3370.8万人，39.14%在县镇，有3359.4万人，21.59%在城市，有1853万人。在我国31省市自治区中，河南省普通中学在校学生最多，有750.5万人，西藏最少，仅有11.4万人。

三、青年劳动就业状况指标

1.经济活动状况

根据2000年全国人口普查长表数据计算，我国15～29岁人口31390.0万人，其中就业人口22615.4万人，占72.05%，失业人口1573.6万人，占5.01%。15～35岁人口47127.1万人，其中就业人口36864.2万人，占78.22%，失业人口1976.1万人，占4.19%。

2.行业分布状况

2000年第五次人口普查时，青少年人口主要从事的行业为农林牧渔业、制造业、批发零售贸易和餐饮业，15～29岁青少年人口从事这三个行业的人员分别有13058.6万人、4015.1万人、1687.4万人，分别占57.74%、17.75%、7.46%；15～35岁青少年人口从事这三个行业的人员分别有21686.2万人、5870.3万人、2780.0万人，分别占58.83%、15.92%、7.54%（见表3-1）。

表3-1　全国青少年各行业人口

单位：万人，%行业

15～29岁 15～35岁

人数比例人数比例

总计 22615.4 100.00 36864.2 100.00

一、农、林、牧、渔业 13058.6 57.74 21686.2 58.83

二、采掘业 210.6 0.93 403.0 1.09

三、制造业 4015.1 17.75 5870.3 15.92

四、电力、煤气及水的生产和供应业 150.1 0.66 258.5 0.70

五、建筑业 629.6 2.78 1122.4 3.04

六、地质勘查业、水利管理业 22.0 0.10 42.0 0.11

七、交通运输、仓储及邮电通信业 616.1 2.72 1080.7 2.93

八、批发和零售贸易、餐饮业 1687.4 7.46 2780.0 7.54

九、金融、保险业 147.6 0.65 268.1 0.73

十、房地产业 51.9 0.23 84.7 0.23

十一、社会服务业 656.8 2.90 972.1 2.64

十二、卫生、体育和社会福利业 252.2 1.12 394.9 1.07

十三、教育、文化艺术及广播电影电视业 610.7 2.70 981.0 2.66

十四、科学研究和综合技术服务业 38.4 0.17 72.9 0.20

十五、国家机关、政党机关和社会团体 421.8 1.87 764.3 2.07

十六、其他行业 46.4 0.21 83.2 0.23

（资料来源：b）

3.职业分布状况

2000年第五次人口普查时，青少年人口主要从事的三大职业为农林牧渔水利生产、生产运输设备操作和商业服务业，15～29岁青少年人口从事这三个职业的人员分别有13086.7万人、4917.1万人、2368.4万人，分别占57.87%、21.74%、10.47%；15～35岁青少年人口从事这三个职业的人员分别有21728.9万人、7508.9万人、3828.5万人，分别占58.94%、20.37%、10.39%（见表3-2）。

表3-2　全国青少年各职业人口

单位：人，%职业

15～29岁 15～35岁

人数比例人数比例

总计 22615.4 100.00 36864.2 100.00

一、国家机关、党群组织、企业、事业单位负责人 132.7 0.59 346.8 0.94

二、专业技术人员 1427.0 6.31 2333.2 6.33

三、办事人员和有关人员 666.8 2.95 1091.3 2.96

四、商业、服务业人员 2368.4 10.47 3828.5 10.39

五、农、林、牧、渔、水利业生产人员 13086.7 57.87 21728.9 58.94

六、生产、运输设备操作人员及有关人员 4917.1 21.74 7508.9 20.37

七、不便分类的其他劳动者 16.7 0.07 26.4 0.07

（资料来源：b）

4.未工作状况

2000年普查时，15～29岁青少年中未工作的人口有8774.6万人，其中主要是在校学生，有5417.7万人，占61.74%，依次是从未工作正在找工作1256.5万人，占14.32%，料理家务1163.1万人，占13.26%，其他518万人，占5.9%，失去工作正在找工作317.1万人，占3.61%，丧失工作能力102.1万人，占1.16%。15～35岁青少年未工作人口有10262.9万人，仍以在校学生为主，有5421.8万人，占52.83%，依次是料理家务2008.3万人，占19.57%，从未工作正在找工作1361.5万人，占13.27%，其他690.3万人，占6.73%，失去工作正在找工作614.6万人，占5.99%，丧失工作能力164.6万人，占1.60%，离退休1.7万人，占0.02%。

四、青年公民参与状况指标

1.青年党员状况

中国共产党是执政党，在政治社会生活中发挥着非常重要的作用，对青年有很大的吸引力。截至2004年底，全国党员总数为6960.3万名，其中35岁以下党员1580.9万名，占总数的22.7%。青年党员的绝对数量和相对比例都有较大的增长，与上年相比，发展学生党员增幅最为明显，共增加了19.5万名。

2.共青团组织基本情况

共青团是党领导的先进青年的群众组织，发挥着党的助手和后备军的作用，发挥着国家政权的重要社会支柱的作用，发挥着党和政府联系青年群众的桥梁与纽带的作用。截至2004年年底，全国共有共青团员7188万人，为历史最高水平；基层团委21.2万个，团总支23.4万个，团支部254万个；专职团干部19.1万人。学生团员总数为3492万人，约占团员总数的49%。全国各学校中共有基层团委5.9万个，团总支7.1万个，团支部89万个。采掘业、制造业、电力、煤气及水的生产和供应业、建筑业以及地质勘察、水利管理业共有团员为610万人。这些行业中，基层团委达3.6万个，团总支3.5万个，团支部30万个。在农、林、牧、渔业中，共有团员2145万人，基层团委5.4万个，团总支7万个，团支部88万个。第三产业及其他行业中，团员总数为941万人，建立了基层团委6.3万个，团总支5.8万个，团支部47万个。与2003年相比，全国团员人数、团委数和团支部数都有一定增长。

全国少工委2004年6月公布的数据称，目前全国有1.3亿少先队员。在学校的少先队大队53万个、中队1500万个。现有的1.3亿名少先队员，主要涵盖了小学一年级第二学期的学生、小学二年级至初中一年级的学生、初中二年级的一部分学生，个别也有初中三年级的学生。近80%少先队员在农村，涵盖各个地区和民族。目前，全国有专职大队辅导员和专职少先队干部约40万名，中队兼职辅导员350万名。另据不完全统计，全国目前约有80万名志愿辅导员。1984年成立的中国少年先锋队工作委员会（简称全国少工委），是少先队的最高领导机构。全国大部分县级以上团组织和教育行政部门共同成立了少先队工作委员会。

3.全国青联委员构成状况

全国青联第十届委员会第一次会议于2005年7月召开，本届委员会委员共1380名，平均年龄35.49岁。本届全国青联委员的界别构成情况是：科学技术界129名，教育界81名，农林牧渔界50名，社会科学界47名，工交商贸界93名，企业管理界135名，金融界64名，政法界30名，文化艺术界157名，新闻出版界61名，体育界43名，医药卫生界69名，社会团体和中介组织界45名，宗教界41名，海外学人华侨界48名，公共管理和其他界168名，台胞和港澳特邀人士119名；民族构成情况是：55个少数民族委员共217名，占委员总数的15.72%；性别构成情况是：男委员998名，占委员总数的72.32%，女委员382名，占委员总数的27.68%；党派构成情况是：中共党员683名，占委员总数的49.49%，8个派成员123名，占委员总数的8.91%，无党派541名，占委员总数的39.20%，共青团员33名，占委员总数的2.39%；文化程度和职称情况是：大专以上文化程度1331名，占委员总数的96.45%，其中，研究生学历754名，占委员总数的54.64%，副高以上职称669名，占委员总数的48.48%。

4.青年参与志愿服务状况

截至2004年初，全国累计已有1.5亿人次以上的青年在扶贫开发、社区服务、环境保护、大型活动、抢险救灾、海外服务等领域向社会提供了超过55亿小时的志愿服务。据初步统计，全国各省（区、市）和2/3以上的地（市）及部分县建立了青年志愿者协会或志愿者协会，建立社区服务站8.9万个，注册志愿者超过1379万。

在13天报名时间里，全国共有49615名高校应届毕业生报名参加2004年度的大学生志愿服务西部计划，远远超出6000人的计划招募数，也超出了2003年43763名的报名数。通过西部计划的动员、招募工作，一曲新时代的青春之歌正在校园里唱响。它的实际意义已远远超过具体有多少人报名。无论最后他们是否去西部，在他们的人生历程中，已激起了一次为国家社会和人民做贡献的热潮。2003年，全国700多所高校参加了招募工作，而2004年增加到1203所。

在2004年报名参加西部计划的毕业生中，本科及以上学历者有19415名，占总数的39.1%，较2003年28.1%的比例明显上升；而党团员又发挥了模范带头作用，比例高达98.2%，其中中共党员有7945名。

5.青年网络参与和应用状况

网络在现代工作和生活中已成为不可缺少的工具，网络对青年生活影响很大。中国互联网络中心2005年7月21日公布的第十六次中国互联网络发展状况统计报告表明，截至2005年6月30日，我国上网计算机台数为4560万，上网人数达10300万，其中18岁以下网民占总网民的15.8%，18～24岁网民占37.7%，25～30岁网民占17.4%，31～35岁网民占10.4%，35岁以下网民共占81.3%，达8374万人。网民中男性占59.6%，女性占40.4%，未婚者占59%，已婚者占41%。网民上网前三位的目的是休闲娱乐、获取信息和学习，上网目的继续多样化发展。

五、青少年身心健康状况指标

教育部关于2002年学生体质健康监测结果公告称，当前学生体质健康问题主要存在于四个方面：一是部分身体素质指标水平继续呈下降趋势。反映下肢爆发力的立定跳远水平，与2000年相比，有75%的年龄组呈下降趋势。反映腰腹力量的仰卧起坐（女生）水平，与2000年相比，7～12岁、13～18岁、19～22岁年龄组分别平均下降2.8次、3.7次、3.4次；二是反映肺功能的肺活量继续呈下降趋势。与2000年相比，7～18岁男女学生分别下降了168毫升、78毫升。大学生与中小学生情况基本相同；三是超重及肥胖学生明显增多，已成为城市学生的重要健康问题。监测结果显示：学生中的肥胖检出率，在2000年比1995年上升的基础上，继续上升。城市男生肥胖检出率上升最快，其中10～12岁由1995年的6.05%上升到2000年的11.68%和2002年的14.46%。男女生肥胖检出率均有年龄提前的趋势，这提示营养教育应从低龄抓起；四是学生视力不良检出率仍然居高不下，小学生视力不良检出率为26.96%，初中生为53.43%，高中生为72.8%，大学生为77.95%。

在第13个世界精神卫生日（2004年10月10日），卫生部、世界卫生组织驻华代表处等机构透露，在我国17岁以下的儿童青少年中，至少有3000万人受到各种情绪障碍和行为问题的困扰，并呈上升趋势。其中，中小学生精神障碍患病率为21.6%到32.0%。统计表明，目前，我国各类精神病的患病率已达13.47‰，共有精神病患者1600万。儿童行为问题、学生心理卫生问题、自杀等问题明显增多。据世界卫生组织调研，中、小学生精神障碍，突出表现为人际关系、情绪稳定性和学习适应方面的问题。据估计，有30%会发展为成人注意缺陷多动障碍，且成年早期的犯罪、酒瘾、吸毒、反社会性人格障碍率是普通人群的5至10倍。此外，有16.0%到25.4%的大学生有心理障碍，表现以焦虑不安、恐怖、神经衰弱、强迫症和抑郁情绪为主。

北京心理危机研究与干预中心是我国首家直接干预自杀行为的专业机构，服务范围是抑郁症和自杀干预。据该中心2004年底公布的一项最新调查数据显示：我国现在每两分钟就有1人自杀死亡，8人自杀未遂，每年有28.7万人死于自杀，200万人自杀未遂。自杀已在我国人口死亡原因中排序第五；在15岁～34岁青壮年中，自杀在死亡原因中排首位。

数据分析论文:浅析农村土地流转对农民养老保障行为影响的调查研究基于对句容市古村延福村太平村的调研数据分析

作者：覃雁君　岳林璐　王继超

论文关键词:农村土地;流转;保障困境;农民养老

论文摘要:农村土地作为一种重要的生产资料，其生产功能的实现在一定程度上关系到农民的生活水平。同时，农村土地也长时期扮演着保障角色，为农民提供相关生活与养老保障。但是随着经济社会的发展以及农村土地市场的发育，农村土地承担的养老保障功能日益受到冲击。该文通过时土地流转行为较为普遍的江苏省句容市进行实地调研，揭示了农村土地养老保障困境的存在。调查结果显示，在非农收入占总收入比率高的地区，农村土地养老保障功能弱化，但农村土地流转对农民养老行为的影响维持在一个较低的水平。结合调查研究，提出通过完善养老保障制度、保障农民权益、创新土地流转方式、扩大农民就业市场等4种途径来促进农村社会养老保障的发展。

1、农村土地“保障困境”分析

从理论上看，农村土地“保障困境”主要是指农村土地保障功能弱化的现实和农民对土地保障功能的“依赖”的矛盾。温铁军在其文中强调:“中国农村的耕地不仅具有双重功能，而且越来越多地转变为以承担农民的生存保障功能为主”。可以看出我国农村土地扮演着保障功能的角色。这种保障的功能主要建立在农业生产功能的基础之上。赵海林通过对我国农村土地产权制度设计的分析也指出“家庭联产承包制度突破了集体所有制，农民获得了土地的有限使用权，但并没有改变土地集体所有的现状。相反，家庭联产承包责任制将土地这一重要的生产资料的经营、转让及收益权赋予农民，从而为土地保障功能的实现莫定了基础”。我国农村土地的产权制度的设计决定了其保障功能。但是这种保障功能设计的愿景由于社会的变迁而受到冲击，这就是农村土地“保障困境”的出现。农民往往将承包土地当作保障的最后一道防线，但这道防线对于农民的保障功能是有限的。正如刘书鹤在其文中阐述的农民将由于劳动能力下降以及土地的收益的减少而使得这种保障无法有效实现。

通过对调查数据分析，农村土地保障功能弱化主要体现在农民从业特征和农户的收入结构变化等方面:

(1)农业对于农民从业的主体性地位发生改变。农民从事农业主要就是指通过土地生产来获得收入的途径。调查数据显示，分析户主从事的工作类型来看，犯户的户主从事的主要工作是务农，占调查样本的30.2%，低于以打工为业的户主数量。38户户主的次要工作是务农，占调查总体的39%。从事农业为次要工作的户主超过了从事农业为主要工作的户主数量，农业在农村的主体性地位已经发生了改变。

(2)农民收入结构发生变化，农业收入的绝对数降低，占总收入的相对比例也降低。以户为对象，2009年每户的农业收入平均为4214. 2元，2008年平均为5059. 59元，2007年为5307元。2009年每户平均农业收入与2008年相比下降了 16. 7 % , 2008年与2007年相比下降了4. 6%;农业收入占总收入的比重下降，而2009年的农民总收入与2008年相比呈现增长的趋势，可见农业收入占总收入比例的下降，非农业收入的增加。通过对106户农民2009年收入结构调查数据的分析，非农业收入占总收人的比重远远超过了农业收入，平均为84%，是农业收入占总收入比重均值的5. 2倍。

农业对于农民从业的主体性地位发生改变及农民农业收入下降的趋势，表明了农村土地的生产功能弱化的现实，但是这种现实并不能断定农村土地保障功能的丧失。农民对其土地的保有量及其变化就充分显示了农村土地仍然具有保障功能，显示了农民对土地保障功能的“依赖”。农民保留口粮田地的行为就可以充分证明这一点。在长期有非农业工作的前提之下，村民流转土地的意愿明显高于没有稳定非农工作时的意愿。前者愿意流转出土地的比重平均为70%，而后者为40%。同时从这些数据分析中也可以看出，非农就业的稳定性将有利于促进农村的土地流转，土地依然承担着农民的就业保障和其他的保障功能。

2、土地流转对农民养老保障的影响

2. 1土地流转对土地保障功能的影响通过土地流转可以将土地资产转化成为土地资本。从土地流转的收入对农民收入的影响来分析，土地流转收入占农业收入的比重为14. 59%，占总收入的比重为0. 65 % 0 2008年土地流转的收入平均数(以户为计量单位)较2007年上涨了66. 4元，上涨率为13. 06% , 2009年土地流转收入与2008年基本持平。但是由于土地流转收入占农业收入比重低，土地流转收入不能对农业收入产生较大变化，从而对土地养老保障功能产生较大影响。在非农就业收入高的地区，农村土地流转对土地养老保障功能的直接影响水平更低。相反，非农就业对农民总收入的增长影响较大，非农就业对农民养老保障行为的影响更明显。农村土地流转对农民养老保障行为的影响的另一个层面，就是通过土地流转，转移农村劳动力，促进非农就业方面显示出来，但是在土地约束劳动力的机制已经不明显的情况下，这种影响也不太明显。

2. 2土地流转对农民养老保障行为的影响农村土地流转对农民的养老保障行为影响保持在较低水平。主要表现在以下几方面:

(1)从调查的数据(见表1)可以看出，参与流转土地的42户农户，其中有15户(占调查参与土地流转农户的33 %)担心土地流转会影响到养老。9户农户主认为土地重要，其他的则认为土地升值流转后则体现不出来或认为劳动能力下降等原因。67%的农户则认为不会影响到其养老水平。持这种观点的理由:一是土地到期后使用权依然归自己(持此看法有7户，占16. 6% );二是土地的收入占总收入的比重不高，(持此看法有18户，占42. 8 % );三是通过流转后获得租金(持此看法有3户，占7. 1 %);四是认为可以通过养老保险和子女赡养来实现养老(持此看法有6户，占14. 28%)，与土地流转的关系不大。

(2)从土地流转户与非土地流转户家庭的参保率(此处的家庭参保率二实际参保人数/应保人数x 100%)比较分析来看，土地流转户42户的参保率与非土地流转户64户的家庭参保率在统计上没有显著的差异。利用stata软件，做两样本的参保率均值t检验。我们将土地流转与否变量表示为traps，土地流转户该变量取值为1，非流转户为0;家庭参保率变量表示为join。

从表2可以得出，土地流转户与非流转户的家庭参保率差异并不明显，标准差也较小。由于流转户与非流转户在参保率取值上的分布的方差并不相同，因而采用添加unequal选项的均值t检验。过程与结果如下:

以上结果显示，土地流转户与土地非流转户的家庭参保率均值没有显著差异。因而在目前土地流转发展的水平上，土地流转对农民的养老保障行为的影响并不突出。

(3)在研究中“假设租金上涨”，有25%的被调查村民愿意增加参保人数或缴费额，有50%的农户则认为，其不会增加参保人数或缴费额，还有25%左右的农户则认为，这两者之间不存在直接的联系。农村的土地流转与农民参保行为之间的关系并不显著。

(4)从养老保障的支出来看，土地流转的所得小于参保支出。89户家庭的土地流转所得均小于参保支出，占调查总户数的83. 9%。由此可推断，大多数农户的土地流转收入无法支撑参保支出。同时由统计表可以计算出土地流转收入占参保支出的比重为25. 8%，无法维持一户家庭的参保支出。所以可以推断土地流转对农民社会养老保障行为的影响很小。

3、农民养老意识和认可的养老方式的变迁

3.1农民的养老意识已发生改变农民的养老意识则主要是指农民选择养老方式的观念。我国农民传统的养老意识倾向于家庭养老，但是随着社会的发展，农民的养老意识也发生了变化。通过对访谈数据的分析，农民的养老意识已有两个方面的转变:(1)被动性的养老观念向主动性的养老观念转变。从对参保户的调查中可以了解到，84户被调查农户中，有79. 2%的农户认为参加养老保险“可以减轻儿女的负担，老有所养”，与传统的“养儿防老”的意识已经有了很大的区别;从传统意义上的对人的依赖向对社会投资来达到养老的转变，开始了由家庭式的养老意识向社会化的养老意识过度。(2)静态的养老观念向动态的养老观念转变。农民的养老不再局限于家庭和土地，社会化的养老途径增加了农民养老的可靠性。有15户(占回答此问题户数的30%)表示适当条件下可全部流转，不留存土地，因为他们认为随着年龄的增长劳动能力会减弱。

3. 2农民认可的养老方式更加倾向于养老保险在对“农户认为最可行的养老方式”的调查中，有70. 75%的被调查农户认为自己以后的养老方式是依靠养老保险养老，而传统的“土地+家庭(儿女养老)”的养老方式只占18. 87%。农民在养老方式上的选择更加倾向于通过养老保险的途径来实现养老保障(见表5)。

4、新型农村养老保险在农村的运行状况

从句容市三村的调查结果来看，新型农村养老保险在三村的试点时间短(2008年试点)，发展较快，截止2009年底参保率达到27.5 %。通过调查发现新农保在句容市三村的运行主要存在以下3个方面的不足:

4.1农民对于农村养老保险政策认识不足，存在一定的盲目性主要表现在不清楚养老金水平的户数占调查总户数的65 %(见表6);当问到养老金是否合理时，61. 32%的农户都选择了“无所谓合不合理”这一选项(见表7)。

4. 2新型农村社会养老保险在实际的运行中.多层次、差异化的缴费制度设计没有得到充分的体现在缴费的档次上，只有一个档次设计，年均缴费438元。这种硬性的缴费没有顾及到农村人均收入的差异性。农村人均收入差距的存在，显示了这一制度的设计不完善。一方面是由于新农保增加了农民的现实的负担，另一方面就是缴费额度的设计，没有设计出适合不同农民群体的缴费标准。

农民对新型社会养老保险制度的认知不足和多层次、差异化的缴费制度在实践中的缺位，这些因素都不利于推行新型的农村社会养老保险制度。

5、土地保障困境背景下的农民养老保障出路设计

农村土地保障困境的存在，一方面表明农民养老保障需要通过社会保障来加以完善，另一方面又要考虑到农村土地“保障困境”所显示的另一种现实，即土地仍然有一定的保障功能。在“保障困境”的背景之下，结合农村养老保障发展的实际情况，可从以下4个方面来促进农民养老保障的发展和完善。

5. 1完善农村社会养老保障制度，提高农民保障水平农村土地“保障困境”的出现，呼吁农村社会养老保障制度的完善。农村的养老保险制度的设计也要基于这种现实考虑，这样的制度设计才能确保其适应性。一是农村社会养老保障的定位要明确，我国农村的养老保障水平因受到国情的影响必然是低水平的。二是农村社会养老保障制度的设计必然要考虑到公平的要素，其受惠的普遍性、公正性应当得到重视。三是要加强宣传，提高农民对新农保这一制度的科学认知水平，提高村民参保的积极性。四是作为农村养老保障制度重要组成部分的农村养老保险制度的设计应当考虑农村人均收入的差异性的存在，多层次缴费的保障制度设计有利于确保不同收入群体支付保障支出的可行性。五是由于农村养老保险制度在农村的长期性缺位，农民的年龄结构也处于不同的层次，设计时应当注重灵活性。六是由于农村土地保障困境显示，农民通过保留口粮地来实现保障的客观存在，有其自身的意义。可以考虑将农村养老保险制度设计成为农民养老保障的一个补充，多元化的养老保障是提高农民养老保障水平的必然选择。

5. 2保障农民的土地合法权益，保证农民选择的自主性一方面要严格依法进行土地流转，充分尊重农民的自全陛，规范土地流转市场。土地流转只有在尊重农民的自主性和保障农民合法权益的基础上，才能保障农村土地流转市场化发展。行政干预、集体流转这些流转途径的存在，可能出现对群众自主性的践踏，因而要确保农民在土地流转中的有效参与。另一方面要结合农民生活生产的实际情况，科学促进农村土地流转的发展。土地“保障困境”所显示的农民保留口粮地的行为，应当值得关注。农村土地承担着生产和保障等多重功能，甚至还是农民精神生活的重要组成部分，简单的以“土地换保障”的做法应当慎重从事。

5. 3通过土地流转市场的完善和土地流转方式的创新，提高农民的保障水平从目前来看，农村土地流转的中介机构欠缺，流转方式单一等，这些因素制约着农村土地流转的有效实施，甚至导致不能有效地发挥土地的保障功能。活跃土地市场，特别是将土地信息数字化、网络化，建立土地流转的交易平台，有效地促进农村土地流转实现市场化，为农民的养老保障提供相应的物质补充。同时，还可以通过土地流转市场，创新土地流转方式，提高土地流转的绩效。比如农村土地合作社的建立，就可以使农民以土地承包经营权入股，在合作的基础上提高农村土地的保障功能。

5. 4扩大农民就业市场第一，加速农民的非农就业，完善农民非农就业市场，以促进农村劳动力转移，增强农民非农就业的稳定性。非农就业可将农民从土地上转移出来，但要看到农村劳动力转移的艰巨性，要意识到农村劳动力转移的长期性。第二，加大农业开发和投人，发展特色农业。传统的农业对农村劳动力的容纳能力受到了土地产出的制约。农业开发可以改善农业基础设施，从而改善农民的农业就业环境。同时还可以通过对农村土地尤其是荒山、荒地、地产林地等的开发，促进其流转，并在此基础上就近安置农村劳动力，形成以开发促流转，以流转促就业的新局面，从而推动浓拼寸土地流转市场的发育，提高土地的保障水平。

数据分析论文:电力自动化中的数据分析与特点

【摘要】随着我国电力系统自动化水平的不断提升出现了越来越多的需要处理的数据流，数据的结构也更加复杂。所以只有进行合理的部署，数据流才可以逐步的提高其传输的效率来保证电力自动化系统的安全性以及可靠性。

【关键词】电力自动化；数据采集；数据分析

随着经济迅速发展以及社会建设的不断完善，我国不同行业以及各地居民对于电力系统发展提出了更高的要求。电力系统的自动化技术，其作用就是可以更好的实现对于运行状态的集中展示以及及时的监控，并且可以对之进行优化，同时提高安全运行的性能。一些高新技术，比如计算机或网络通讯技术等在电力自动化技术中的应用，让其数据处理工作也日趋复杂，可以快速以及准确的获取和处理数据是保证电力自动化系统正常运转的保证。

1. 数据采集

一般在电力自动化系统中，首先要做的是数据采集。采集数据，指的是电力自动化的输入，分为数据的采集以及处理和转发等三个环节。与电力自动化系统相对应的就是数据的传输是采集的关键。目前来看针对数据的传输，主要有有线以及无线两种主要方式，有线传输的方式包括了光纤和电缆等，无线传输的方式有微波以及无线扩频等。目前我国电力系统发展中主要采用的传输方式是有线传输，但是无线传输在一些特殊区域发挥出重要作用，因为无线传输具有减少铺设线路的优点所以在一些偏远地区的电网数据采集来说就具有较大优势。

2. 采集数据分为以下几个类型

实时数据，指的就是在现场实时采集到的数据，其特点就是数据量特别大，因此对于此类数据的存储提出了更高的要求。第二就是基础数据，指的是电力设备数学的一些数据，其属于设备管理的基本范畴之内，例如线路或者发电机等。第三就是日常的运行数据，主要有电力自动化系统中记录的数据以及各种职能部门在工作中处理的数据。最后就是市场数据，因为电力行业的市场化改革正在逐步进行，所以将市场数据纳入数据分类中也是适应发展趋势的必然要求。

3. 在收集数据之后，对数据进行下一步的分析和整理

3.1数据的分析大致有以下三个特点：

（1）数据的唯一性。在电力自动化系统中存在着大量的数据，这些数据的特点就是具备一定的独立性，但是在子系统进行交流的过程中这些数据也会包含其他子系统中的大量数据，所以子系统之间的数据会存在交叉现象，如果不能对这些数据进行妥善处理的话就会出现数据冗余的问题。一旦出现了数据的冗余很可能导致系统在处理数据时能力降低湖或者更新速度较慢，严重的话还可能导致系统数据的可信度降低。所以说为了能有效的保证数据的唯一性，就需要对数据库进行统一的管理以及日常维护工作。通常来说对于离线数据库可以比较容易进行管理，实现其唯一性难度不高，但是针对实时数据库就需要将数据库的信息映射到不同工作站的内存中，就需要在线进行统一管理来确保不同子工作站的数据库进行更新来避免重复性。

（2）数据的共享性。目前随着我国信息化的进行以及网络的普及，互联网的影响已经深入到了社会的不同层面以及角落，网络带宽也越来越大，网速也逐步提高，这就使得web数据共享方式变得更为可行。跟其他的数据共享方式比起来，基于web的数据共享技术充分利用了互联网技术，具有高效率低成本的优势。

（3）保证数据的安全性。随着我国电力系统自动化水平的不断提升出现了越来越多的需要处理的数据流，数据的结构也更加复杂。所以只有进行合理的部署，数据流才可以逐步的提高其传输的效率来保证电力自动化系统的安全性以及可靠性。数据流在电力自动化系统中的关键，就是要解决系统的统一接口的问题以及实现子系统之间的互联。其未来发展的基本方向就是实现电力自动化系统的数据流优化策略。

3.2随着电力系统中数据的存储了急剧增加，互联网中的病毒等也开始泛滥，但是碍于一些硬件设备的限制导致了电力系统中的数据备份等还是不够完善，这就大大的增加了数据丢失的风险。数据丢失很可能会导致电位运行的不稳定甚至是瘫痪。所以说数据的安全问题成为了现在电力自动化发展中十分重要的问题。

电力自动化系统是一个会涉及到多方面内容的系统，其核心就是数据的处理。正确有效的数据处理是保证电力自动化系统安全有效运转的必要手段。

数据分析论文:牵引变电所电气设备预防性试验与数据分析

摘要:牵引变电所预防性试验是判断电气设备能否继续投入运行的重要依据。本文主要对牵引变电所电气设备预防性试验的数据结果进行了综合分析。

关键词:牵引变电所;预防性试验;综合分析

一、前言

牵引变电所电气设备的预防性试验是判断设备能否继续投入运行及系统能否安全运行的重要依据。在预防性试验中每一项试验项目对反映不同绝缘介质的各种缺陷特点及灵敏度各不相同。通过试验,掌握设备的绝缘状况,及时发现设备隐患,避免设备绝缘在长期运行中老化或是系统因过电压的作用被击穿而造成大面积的停电事故。为了防止设备在运行中发生事故,应定期对牵引变电所电气设备进行预防性试验。

二、电气设备预防性试验简介

(一)预防性试验分类。牵引变电所电气设备的预防性试验可分为绝缘试验和特性试验。绝缘试验又可分为:破坏性试验和非破坏性试验两类。

1.破坏性试验(耐压试验)

这类试验对设备绝缘的考验是十分严格的,它能够暴露出那些危险性较大的集中性的缺陷,并可以保证设备的绝缘有一定的水平和裕度。其缺点是有可能在测试时给设备的绝缘带来一定的损伤。

2.非破坏性试验

这类试验是指在较低的电压下或是采用其它不会损伤设备绝缘性能的办法来测试设备绝缘的各种特性,从而判别绝缘的内部的缺陷,例如测量绝缘电阻和泄漏电流、测量绝缘的介质损耗角正切值tgδ(%)、绝缘油的物化特性、绝缘油气相色谱分析等。非破坏性绝缘试验对于检查牵引变电所电气设备绝缘缺陷的有效性比较表,如表1所示:

由于变压器内的油和固体绝缘材料在电或高温的作用下裂解产生各种气体,进行绝缘油气相色谱分析试验分析这些气体各种成分,有助于判断运行设备的状态。对判断故障有价值的气体有甲烷、乙烷、乙烯、氢、一氧化碳、二氧化碳。正常运行的老化过程产生的气体主要是一氧化碳和二氧化碳。在油质绝缘中存在局部放电时,油裂解产生的气体主要是氢和甲烷。在故障温度高于正常运行温度不多时,产生的气体主要是甲烷。随着故障温度的升高,乙烯和乙烷逐渐成为主要特征。在温度高于1000℃时,油裂解产生的气体中含有较多的乙炔。如果故障涉及到固体绝缘材料时,会产生较多的一氧化碳和二氧化碳。根据绝缘油中溶解的气体的组分和浓度含量,可以判断变压器内部可能存在的潜伏性故障。在实际中,根据烃类气体、氢气、一氧化碳、二氧化碳这几种气体特征来判断故障性质。如表2所示:

绝缘特性以外的试验统称为特性试验。这类试验主要是表现设备的电气或机械的某些特性。例如变压器线圈直流电阻试验、变比试验、连接组别试验以及断路器的接触电阻、跳合闸试验等。牵引变电所直流电阻的测量是判断变压器分接开关接触不良、焊接不良、套管的导电杆和绕组连接处接触不良的重要依据。对于断路器导电回路的接触电阻主要决定于每相动、静触头间的接触电阻,其大小直接影响通过工作电流时发热,以及通过短路电流时的开断性能。

三、试验数据的分析判断

在分析判断试验结果时,现行标准中有规定值的设备,应按照规定来判断。无明确规定的设备,与同一设备相比较、与历年试验数据或出厂值相比较,与同型号设备相比较,最后依据变化进行分析判断。

由于温度、湿度、外电场、磁场、试验仪器、试验电源等多种外界因素的作用,对试验值的影响较大,造成试验数据的误差和波动。将历年春检中的试验数值换算至同一温度,从表3可以看出,虽然各项试验数据在规定范围内,但通过比较可以发现,2007年度,该变压器的高压对低压、高压对地、低压对地和高压对低压线圈间的绝缘电阻及吸收比突然下降。其直流泄漏电流增大,而变压器高、低压线圈的介质损耗tgδ值无明显变化,且符合规定。由此可初步判断线圈绝缘存在较严重的集中缺陷,但仅依据常规的绝缘试验,并不能足以说明变压器内部有异常,通过绝缘油气相色谱分析数据,见表5。

由以上分析甲烷、乙烯、乙炔、氢气、总烃含量均超过注意值数倍。判断故障类型为高温过热故障。委托牵引变压器生产厂家开箱检查故障原因是:c相器身下部的铁轭下夹件的拉紧螺杆绝缘损坏,拉紧螺杆穿过铁窗形成短路匝,在夹件和螺杆之间起弧放电造成拉紧螺杆烧损。经维修后,通过各项试验和绝缘油气相色谱分析,各项数据均合格。

四、结语

牵引变电所预防性试验是判断电气设备能否继续投入运行的重要依据。因此,在进行综合分析判断实验结果时,除应注意试验条件和测量结果的正确性外,还应加强技术管理,建立健全设备档案资料,以便对试验结果进行全面的、历史的综合比较分析,掌握设备性能变化的规律,只有这样才能对被测设备的缺陷性质做出科学的结论。

优秀范文

数据分析论文

数据分析 论文:关于我国电子商务企业的数据分析方法的探讨

数据分析论文:作为市场化的人口流动——第五次全国人口普查数据分析

数据分析论文:浅议现金流量表的财务数据分析

数据分析论文:电子商务网站营销数据分析技术初探

数据分析论文:色谱数据分析在变压器故障处理中的应用

数据分析论文:通信网管数据分析与应用

数据分析论文:1996-2004中国面板数据分析

数据分析论文:探讨统计数据分析体系中统计分析方法的选择与比较

数据分析论文:环境空气检测数据分析及处理方法

数据分析论文:中国青少年发展状况统计数据分析报告

数据分析论文:浅析农村土地流转对农民养老保障行为影响的调查研究基于对句容市古村延福村太平村的调研数据分析

数据分析论文:电力自动化中的数据分析与特点

数据分析论文:牵引变电所电气设备预防性试验与数据分析

数据分析与知识发现

数据采集与处理

数据通信

数据

数据分析论文

数据分析论文:关于我国电子商务企业的数据分析方法的探讨

数据分析论文:作为市场化的人口流动——第五次全国人口普查数据分析

数据分析论文:浅议现金流量表的财务数据分析

数据分析论文:电子商务网站营销数据分析技术初探

数据分析论文:色谱数据分析在变压器故障处理中的应用

数据分析论文:通信网管数据分析与应用

数据分析论文:1996-2004中国面板数据分析

数据分析论文:探讨统计数据分析体系中统计分析方法的选择与比较

数据分析论文:环境空气检测数据分析及处理方法

数据分析论文:中国青少年发展状况统计数据分析报告

数据分析论文:浅析农村土地流转对农民养老保障行为影响的调查研究 基于对句容市古村 延福村 太平村的调研数据分析

数据分析论文:电力自动化中的数据分析与特点

数据分析论文:牵引变电所电气设备预防性试验与数据分析

数据分析与知识发现

数据采集与处理

数据通信

数据

数据分析论文:浅析农村土地流转对农民养老保障行为影响的调查研究基于对句容市古村延福村太平村的调研数据分析