首页 优秀范文 人口统计学变量分析

人口统计学变量分析赏析八篇

时间:2023-09-04 16:40:25

人口统计学变量分析

人口统计学变量分析第1篇

〔实例1〕某调查报告称,某村2001年出生婴儿10人,其中男婴6人,女婴4人,出生性别比高达150,严重失调。

〔实例2〕某乡给某村下达人口计划,其中一项指标是计划生育率,要求当年的计划生育率不低于95%,而该村一般每年出生不足20人。

〔实例3]某地计生委根据群众举报,查出某县一个超生5胎的情况,据此称该县超生问题严重。

〔实例4〕某县总人口不足50万人,近年来在孕妇中推广服用“福施福”。上级要求检查服用“福施福”后,人口缺陷发生率是否逐年下降。还有不少地方把孕产妇死亡率是否逐年下降当作生殖健康服务工作的考核内容。

这几个例子所出现的问题都是以个案或少量发生的情况,说明一个地方宏观的情况。人口和计划生育统计所分析的对象(人口)或事例具有群体性,这个群体是由每个个体的人或事件集合而成。每个个体是否发现这种现象是偶然的,作为表现群体规律的统计数据,只有当群体具有相当的规模后才有意义。群体的规模太小,尽管对每个个体的统计是准确的,指标的计算也是正确的,但计算结果并不能客观地反映群体的规律。

如实例1,一个村的出生人数仅为10人,计算的出生性别比要么是100(“绝对平衡”),要么就是男女比例严重失调。实例2中计划生育率受出生总数的影响,要么计生率正好100%,只要有一个计划外出生,计划生育率就低于95%。例4涉及的出生缺陷发生率或孕产妇死亡率一般统计时均以10万作为分母,对于一个县,每年出生几千人或1万多人,即使按照出生缺陷、孕产妇死亡发生的平均水平,每年也只有几例,偶然性很大,在统计数据上很难表现为逐年下降。至于例3,以一个特例说明全县的情况,更是欠妥。各种人口和计划生育统计教材上并未说明各项统计指标适用的人群至少要达到多少,但一般说来这些统计指标绝大部分不能用于分析规模在几百人到一千多人的村级情况,许多指标在县、乡级使用也不太合适。多年来各级是通过报表收集人口和计划生育统计数据。报表由上级制发,基层单位按统一的口径填报每个项目,然后逐级汇总、上报。这样以来,上、下级的报表式样相同,只是数量大小有差别,于是,上级单位计算哪些指标,下级单位“照葫芦画瓢”计算相同指标。特别是实行人口与计划生育目标管理责任制后,各项工作任务和责任要逐级分解、落实,相应地,工作指标也被层层分解,上一级控制的指标(如出生率、计划生育率)也被一直套用到基层单位。在这种情况下,群体性的要求很容易被忽视。

2自然属性与社会属性

〔实例5〕1995年8月,在全国上半年人口形势分析会上,某省计生委分析本省当年上半年二孩出生数量比上一年同期减少的原因时称,由于自当年起全省广泛推行“三结合”,许多群众为了发家致富,主动退出二孩指标,于是二孩出生明显减少。笔者的同事立即对此理由提出了置疑:既然是主动退出二孩指标导致二孩出生减少,那么原来应在1995年上半年生育二孩的妇女至少在1994年上半年就应退出二孩指标,而那时候,该省并未开展计划生育“三结合”;至于1995年上半年开展“三结合”后退出的二孩指标,其二孩出生减少的效果应在1996年以后才能表现出来。群众退出二孩指标与二孩出生数量的减少在时间上出现了“矛盾”。

〔实例6〕许多文章分析妇女受教育程度越高,生育的孩子越少。

这两个例子说明分析人口出生数量的变化应考虑人口的自然属性和社会属性。人口首先是生物意义上的人口,具有自然属性,同时,人口生活、存在于一定的社会环境中,具有社会属性。人口现象的发生既受自然属性的影响,也受社会属性的影响。从根本上说,社会属性对人口现象的影响和制约是有条件的、间接的。而自然属性的影响和制约是无条件的、直接的。社会属性的影响和制约常常要通过自然属性来实现。在分析人口现象的时候,首先要解释人口的自然属性,然后再解释社会属性。就实例5而言,从妇女退出二孩指标到二孩出生减少,至少间隔10个月,即妇女的怀孕期,无论推行“三结合”力度多大,妇女10个月的怀孕期不能缩短。退指标的发生与出生数的减少在时间上不“同步”,至少要“滞后”一年。也就是说,1995年上半年因开展“三结合”妇女退出二孩生育指标不会影响这个时期的二孩出生数量。关于实例6,一个人的受教育程度属于社会属性,妇女受教育水平提高,的确会影响其生育行为。然而,影响生育的自然因素,直接因素是避孕节育行为,具体地说,影响生育的生物因素包括推迟结婚(不发生)、采取避孕措施和流产(终止妊娠)。妇女文化程度影响到上述生物因素发生变化(如文化程度高,能够更好地掌握避孕知识,可以提高避孕的有效性,减少怀孕的可能),并通过上述因素影响生育孩子的数量。直接讲文化程度与孩子数量的关系,未免有些牵强。

3定量与定性

〔实例7〕各地每年都要分析当年的人口形势,将当年的数据与上一年的数据进行对比。许多分析报告在列举了对比数据后得出结论:“今年的工作比上一年有明显的进步,取得了巨大的成绩,上了一个新台阶”。但如果我们仔细察看各项指标的数量,发现变化并不大,如计划生育率由88.5%上升到89%,出生率由15.4‰下降为14.9‰(这其中由于人口年龄结构的变化也能导致出生率下降),多孩出生由165人减少为149人,多孩率由2.2%下降为2%等等。根据这些数据的变化,得出的定性结论应当是:“工作稳步发展,人口增长保持平稳的态势”。人口和计划生育的统计分析主要是指对数据的分析,并由“定量”的描述引申到定性的判断。如果忽视定性的分析,那么,所谓定量分析不过是数量变化的文字描述而已。把握好定性分析的关键在于,定性分析应以定量分析为基础,即“定量”在前,“定性”在后。那种先“定性”,再计算数量变化的做法,违背了“定量”与“定性”的基本规律。这样进行的定量分析,只是给定性的结论加一些数量的点缀。

4模糊和精确

〔实例8〕某地区的一份材料称,根据20年来每年总和生育率的变化,推算本地区20年来少生了1831275人。

〔实例9〕某县计生委利用农村赶集日人口比较集中的机会,出动服务车,设置咨询台,向群众宣传计划生育知识,提供咨询服务。县计生委的汇报材料称,“一个月来在集日上接受宣传、咨询的群众累计达到127328人次”。

乍一看,实例8和实例9中的人数和人次数的统计和计算十分认真仔细,数字如此精确,令人钦佩。但转念一想,不免生疑:实例8中利用总和生育率计算少生人口,需要以年龄别生育率与分年龄妇女人数相乘计算出生人数,一般来看,每个年龄组的计算结果都不会是整数,只好四舍五入。每一年若干个年龄组累计下来,个位数已经含糊不清了。再把20年的少生人数累计起来,怎么可能精确到个位数呢?况且20年间,该地区的人口并非处于“封闭状态”,各年龄组人数因为人口迁移而变化,也会影响到计算少生的数量。至于实例9,在一个开放的、人们频繁走动的集市上,如何判定哪个人接受了宣传,哪个人接受了咨询,并没有一个客观的标准;即使有标准,实际操作中也很难把握,因此,根本没有可能逐人统计。实例8、实例9中看似精确的数据令人感到滑稽,倒不如模糊一些,说“20年大约少生了18万人”,“一个月在集市上接受了计划生育宣传、咨询服务的人次达10余万”,或许有几分可信。从某种意义上讲,人口和计划生育所涉及的是宏观层面的事情,与此相应的统计数据所反映的是大致的状态或趋势,没有必要也没有可能做到精确。许多同志在应用统计方法时,往往注意的是方法本身的定义和计算过程,而对计算中数据的来源不了解。人口和计划生育统计属于社会经济统计范畴,很多数据是通过抽样调查获得,允许有一定的误差;即使是全面的调查(如人口普查、全局报表),在实施过程中,也会遇到这样、那样的干扰或影响,存在着调查误差,这是无法完全避免的。从某种意义上讲,数据存在一定的误差,这是人口和计划生育统计的特点之一。

5原因与结果

〔实例10〕最典型的例子莫过于“人口出生率每降低1个千分点,人均GDP提高多少个百分点”的说法。这种说法的依据是利用相关分析法对全国各省的人口出生率和人均GDP的数量变化进行计算,得出二者之间的函数关系式和相关系数。把人口出生率作为自变量,看自变量的单位变化影响因变量(人均GDP)变化的数量大小。

在这个例子中相关分析法本身以及有关的数据都是正确的,然而,用这样一个函数式来解释人口增长与经济增长的相互关系是有问题的。其一,就统计方法来说,相关分析只反映变量之间的相关关系,而不说明因果关系;其二,人口增长与经济增长固然相互影响,但从本质上来说,是经济发展影响人们的思想,进而影响人们的生育行为,最终导致生育率下降,人口增长率降低,即经济增长是“因”,而人口增长是“果”。颠倒了因果关系,不仅逻辑上讲不通,数量上的“相关性”也失去了意义。

笔者在多年的工作中体会到,由于人口和计划生育所具有的特点,人口和计划生育统计分析方法的应用和统计数据的解释有别于其它部门和领域对于统计的一般要求。正确地应用统计分析有助于我们认识人口和计划生育的特点和规律,只有科学地认识和把握人口和计划生育的特点和规律,才能避免在统计分析中陷入误区。

社会科学实证研究中的统计分析方法应用

郑真真(北京大学人口研究所副教授)

统计学的应用随着微型计算机的普及越来越广泛,在社会科学实证研究中几乎是无处不在。有了一定规模的数据和一个统计分析软件,就可以很方便地进行各种估算和分析。然而由于统计分析方法本身并不像加减乘除那样简单,而一些统计分析软件已经发展到几乎是人人都可使用的程度,如果使用者在只知其然不知其所以然的情况下操作并得到结果,可能出现对统计分析方法误用或滥用的现象。本文仅对一些统计分析中比较常见的问题进行讨论,以引起各方面的重视。

1描述性统计

描述性统计是社会科学实证研究中最常用的方法。准确、全面、正确的描述是所有实证分析的基础,如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析都将是值得怀疑的。一项研究能够将所研究的现象或对象描述清楚,就是一个极大的贡献;而描述的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。但是因为描述性统计所用方法简单易得,往往没有得到足够的重视。

均值的局限普遍用于描述样本集中趋势的测量之一是均值。它对于近似正态的对称分布样本来说是比较好的测量,对于不对称分布则不然,尤其会受到极端值的影响。两个分布完全不同的样本可能会有相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要我们进行深入研究的、或应当引起人们注意的。为了弥补均值的这个缺陷,一般在报告均值的同时也报告方差,或用直方图/散点图的形式描述分布,以提请读者注意群体内部的差异。

不同群体的可比性在描述性统计中,往往涉及到对不同时期或不同人群的总体描述,以反映社会变化或地区差异。在社会科学中、尤其是人口研究中,不少事件的发生都是与年龄密切相关的,如我国妇女大部分在35岁以前完成了生育,从而导致35岁以上育龄妇女中极高的避孕现用率。在这种情况下,两个样本之间存在避孕现用率的差异可能只是年龄结构的差异,而不是年龄别避孕现用率的差异。又如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,但忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群。这种对两个不同群体的比较往往会导致错误的结论。

绝对数的使用由于中国人口数量巨大,调查研究也比较容易得到大容量的样本,所以对任何小概率事件用绝对数报告都会出现惊人的巨大数字,单纯对绝对数的强调往往会产生戏剧性的效果。比较合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究人群的比例。

小样本的代表性在一次抽样的小样本中求得的率或比例会非常不稳定,与另一次抽样的结果可能会有较大差距。因此当研究仅限于从小样本获得的资料时,应当在报告比例的同时也报告样本量。

2双变量统计分析

在社会科学研究中,首先分析的往往是两个变量之间的关系,如用相关或列联表等方法。一般在确定两个变量之间确实有某种关系,如在经过统计检验后证实两变量有显著相关关系,进行更进一步的分析才有意义。因此,双变量统计分析在实证分析中占有重要地位。但是,由于在应用中对有些问题的忽视,双变量统计分析也很容易出现偏差或错误。

卡方检验的局限在利用列联表对两个定序/定类变量进行相关分析时,需要进行统计检验来判断两个变量的相关是否有统计上的显著意义。不少研究结果都用卡方检验的显著性报告相关状况。但值得注意的是,卡方统计量的计算本身是有局限性的,样本越大,卡方值就会相应增大,因此大样本的卡方检验很容易得到显著结果。所以一般在报告卡方检验结果以说明两变量是否显著相关时,还应当同时报告相关强度,即相应的相关系数,如Gamma,Lambda等。

统计意义上的显著与差别的实际意义在检验两个定距变量的均值差别是否具有统计上的显著性时,也存在相似的问题。由于样本量越大,样本均值分布的方差就越小,因此常用的t检验结果就越可能显著,任何细微的差别都可能有统计上的显著性。但有时具有统计意义显著性的差异,在实际生活中可能意义并不大,如同在两个草堆之间找出一根草的差距,对判断两个草堆的大小没有实际意义。因此,对任何检验结果都应当有符合实际的解释和说明。

虚假相关问题双变量分析中的虚假相关问题,几乎在所有关于社会科学研究方法的教科书中都会涉及到,在统计分析方法的教学中也被视为经典问题。但是多少年来,人们仍然在不断地重复着这个“经典的错误”,即认为可见的或统计检验结果显著的相关就是真正的相关;更为大胆的做法是把这种相关关系推向因果关系。我们知道,对于有的变量来说,即使是经过检验判定两者具有统计上显著的相关关系,也不一定存在实际意义上的关系,因为可能有未考虑到的变量或不可测量的变量在同时对两个研究变量起作用,有时甚至可能完全是偶然的巧合。例如,火灾的大小是以火灾损失来衡量的,而参加灭火的消防员人数是与火灾大小有关的,火灾越大,出动的消防员就越多,但凡是具有常识的人都不会根据出动消防员人数和火灾损失两个变量之间的高度相关,断定出动消防员越多火灾损失就越大,因为火灾的规模是决定因素(但很难直接衡量)。在有关人口科学研究中也有报告虚假相关的现象,如人口增长率的降低导致了经济增长的提法就是一例。因此,在分析相关关系时,应当根据理论、知识、经验、甚至常识来判断这种分析是否有意义、是否存在其他变量的作用(称为外在变量),避免得出有悖于常理的分析结果。有些虚假相关是可以通过统计分析方法判别的,如在控制了另外一些变量后观察两个变量的偏相关,或在双变量分析的基础上,进一步用多变量分析深入研究。

3多变量分析

回归分析是多变量分析中应用最多的方法,尤其是逻辑斯蒂回归更是被广泛地应用。在众多应用中,比较明显的问题是使用方法是否得当和对结果的报告和解释是否规范、合理(见2002年第2期《人口研究》刘金塘文)。此外还有一些应当引起注意的问题。

分析框架的重要性在社会科学研究中,各变量之间往往存在错综复杂的关系,如果在进行回归分析之前没有一个清晰合理的分析框架,那么回归的结果有可能会引起质疑。一般应在报告回归分析结果之前,介绍该分析的框架,如各变量的定义、各自变量与因变量的假设关系及其理由等,对建立的回归模型做出合理性论证。有一些变量可能是作为控制变量纳入回归模型的,如性别、年龄等,最好事先解释清楚。对假设因果关系的模型,应当至少能够说明:(1)该因果关系在理论上是正确的、在实践中是合理的;(2)从事件发生的时间上来说,应当是原因发生在先、结果发生在后。如有些回归分析中,未加说明即把所有与因变量显著相关的变量都囊括在自变量中,甚至有些自变量与因变量有明显的互为因果关系,显得分析逻辑混乱;还有的论文在简单介绍研究背景和数据来源之后,急于建立因果关系并推出回归分析结果,然后再根据各变量在回归模型中的显著性一一说明,这相当于事后解释;这些做法都是错误的。

在具备“奔4”微机和较易操作的软件的今天,转瞬间就可完成一次回归分析,但是在此之前,需要有大量的前期准备工作,包括文献检索和理论框架构建,才能确保统计分析的科学性。

分析方法应用的条件每种多变量方法都有各自的前提条件或假设,如果这些条件不具备或者假设不成立,该方法的应用就成问题。如Pearson相关是考察线性相关关系,多元方差分析只能辨别线性相关因变量的多元差异,线性回归分析假设自变量与因变量之间为线性关系,因子分析方法也是建立在各变量具有一定的线性相关基础之上的;另外,在逻辑斯蒂回归中,每个分类都应保证有足够的频数,如果频数太少就会影响参数估计的稳定性;等等。尽管一般不在报告分析结果时说明各种假设是否成立或条件是否满足,但是在进行分析时应当自觉地进行考察。如果不能满足条件或假设不能成立,就对数据进行转换或调整后再分析,或者改变分析方法。

多变量分析结果的展示和解释多变量分析的结果一般是通过列表来展示的。现在一种并不少见的做法是直接把统计软件的输出直接复制到论文中,我们往往会在文章中看到包括回归参数估计、参数标准差、检验统计值、检验显著性、偏相关系数等等n行m列的大表,使人有目不暇接的感觉。实际上参数标准差和检验统计值是提供给分析者的信息,没有必要列在结果中;如果不是有特别需要的话,偏相关系数也不是关注重点;最主要的应当是回归参数估计及其显著性。

在列出分析结果之后,应当对结果的实际意义进行解释和讨论,而不是复述分析结果的数学意义。此外,在多元统计分析中一个常见的问题是分析者对变量作用不具有预期统计显著性的失望,因此绕开不显著的变量,甚至对数据或模型进行各种调整以获得显著结果。其实,统计分析结果不显著往往也是有实际意义的。例如在分析我国高龄老人的地区分布时发现,高龄老人比例与当地医疗卫生指标没有显著关系,这说明我国医疗系统还没有具备延长老人寿命的功能;另一方面也说明这些高龄老人的存活不是主要靠医药维持的。所以,在解释分析结果时,只要是在分析框架中涉及并参与分析的变量,无论作用显著与否,都应当给予充分的讨论;对于那些由于知识或信息的限制难以下结论的结果,可以作为问题提出,以便进行更有针对性的进一步研究。

此外,任何方法都有其局限性,分析结果也不会十分完美。因此在讨论结果的同时,也应当就此向读者说明。例如当一个多元线性回归分析的确定系数较低时,需要指出该模型有限的解释能力,探讨可能存在但没有纳入分析的更重要的影响因素。

不必求最新、只求最合适有些研究生在撰写学位论文时,常常因为自己没有应用最新的统计分析方法而感到忐忑不安;在评论某项研究的创新性时,有时也出现把学术创新和应用新方法混为一谈的现象,例如认为应用描述性统计方法的研究水平低于应用解释性或预测性方法的研究。新方法是层出不穷的。但是,出现了新方法并不意味着传统方法就不再适用,而是各有千秋。统计分析方法是工具,哪件合适就用哪件,能用锤子解决的问题不必开冲床。有时越是复杂的方法,假设条件也会相应较多,应用的局限性更大。因此,盲目追求方法的新颖并不是高水平研究的保证,真正需要注意的是使用最合适的方法。而对所用方法的真正了解,是正确运用统计分析方法的前提。

总和生育率的内在缺陷及其改进

郭志刚(北京大学社会学系、北京大学中国社会与发展研究中心教授)

1总和生育率的应用目的及评价原则

年龄别生育率及其概括性指标总和生育率(TFR)是生育研究中最常用的指标体系。但是现在它们面临很多实际问题。本文不讨论出生漏报导致统计失实的问题,因为其性质并不在于统计方法,而是一个社会问题。本文只局限于这一指标体系内在的有效性问题的方法论讨论。一个指标是否有效应该以研究目的为标准来判断,因此这一讨论将结合当前实际工作的需要来进行。

统计指标有两种功能:一种是对调查对象本身特征的直接描述,另一种则用于推断估计。很多情况下,统计指标同时承担着这两种功能,比如样本统计量反映了样本对象的特征,同时又服务于推断估计总体参数。既然是一种估计,自然会有推断偏差或误差。评价不同估计的优劣是看谁的偏差或误差更小。

那么通常我们应用TFR到底要反映什么?一是为了在控制育龄妇女结构的条件下概括时期生育水平,二是作为终身生育水平的估计。(注:在这一方面,总和生育率与人口的粗再生产率和净再生产率的性质类似,后两个指标中只不过又控制了下一代的性别和死亡因素的影响而已。)两种性质都反映在各年龄组生育率的合计上。通常,不同基数的相对数指标不可以直接相加(注:如男性平均年龄加女性平均年龄没有意义。)。为什么年龄别生育率可加,是因为设置了假设队列的概念。TFR主要不是平均的概念(注:早期将其翻译为平均生育率的确是错误的。至于年龄别生育率对妇女其他差别所做的均质假设,其实存在于所有汇总指标之中,而不论其分组有多细,但是都不会因此而称为“平均××率”。),而是总和的概念(即假设队列经过所有年龄后生育总和)。因此,TFR一身兼两任,其内容为时期生育率总和,其形式为队列终身生育水平。从前一种意义上使用时描述了该时期生育水平,从后一种意义上使用时则是假设队列终身生育水平的估计(注:但这种估计从原理上不同于一般统计量从样本推断总体的情况,但有关评价原则却是类似的。)。其值实际上涉及了35个实际队列,并且只有在生育水平及年龄模式长期不变的苛刻条件下,它才真正与实际队列终身生育水平相吻合(但是队列仍是泛指的)。尽管这一假设队列与真实队列并不能很好对应,但起码可以及时提供一种队列终身生育的估计来满足实际需要。

2缺陷一:总和生育率对终身生育水平的背离

表现A:最早对TFR的批评是由于其剧烈的时期波动。一逢时期突发事件(如中国1958~1961),实际生育量发生了变化,TFR就会大幅度下降。应该说,批评并不是指向其描述时期生育水平的功能,而是指向其作为终身生育估计的功能。因为,这时TFR的下降只是由于时期特殊原因影响,并不意味着终身生育水平真的下降。实际上,时期效应一过,TFR马上便会出现反弹(即常说的生育补偿),然而反弹的水平也并不能标志终身生育水平真的那样高。总之,TFR短期内剧烈波动时,将其作为终身生育率估计来理解很成问题。其中最引人注目的是,反弹年份的分孩次TFR(i)会超过1,特别是一孩TFR(1)会大大超过1(注:1982年全国1‰人口生育率抽样调查数据显示(姚新武,1995),1963年TFR=7.463,其中各孩次TFR都大于1,最高的是TFR(1)=1.568。作为队列估计,即是说每人生育一个半一孩,显得很荒唐。)。人口统计学对此采取的对策是,避免采用这些年份的TFR来作为终身生育水平的估计,或者采用若干年份的TFR的平均值来作为终身生育水平的估计,希望将欠年与盈年的误差相抵消。

表现B:然而,有时即使社会中似乎并没有什么特殊事件,TFR也会背离终身生育水平。但是,往往只是在TFR提高时才会受到一定关注(注:如1983年左右中国人口学界对TFR的讨论。)。理论分析可以证明,这种背离既可以是正的,也可以是负的。特别是在负偏离的情况下,往往可能持续较长的时间。并且,这种负背离实际上正是当前所面临的实际情况,因此特别需要重视。

这种背离产生的原因是婚育年龄的变化,或者说是队列的年龄别生育模式的改变。而负偏离则对应着婚育年龄的推迟。与时期突发事件对婚育年龄的推迟的暴发性影响不同,生育模式的自身转变具有较长时期的持续性、变化上的渐进性、现象的隐蔽性等特征,并且它并不一定伴随生育补偿现象。甚至有时人们根本没有意识到这种偏离的存在。

人口统计学早就揭示出,晚婚晚育可以延缓人口增长,但这是从长期人口发展的角度来证明的。而晚婚晚育对年份TFR有什么影响,则很少有人涉及。从理论上说,取得同样的终身生育总量,可以有不同的进程表。即假定各队列的终身生育数量不变,从某一时期开始各队列的生育年龄开始推延,这一过程可以持续较长一段时期,直至最终稳定在一个新的生育模式上。我对此做过一些模拟计算,在这种情况下,生育模式转变时期中每年的TFR一定会低于事先所设的队列终身生育量,而这段时期两端及以外各年份的TFR则可以等于事先所设的终身生育水平。这表明,即使将整个转变过程或更长时期中各年的TFR都加在一起平均,得到的还是—个偏低的终身生育估计。

更普遍的情况是生育模式的变化与终身生育量的变化同时发生,这时TFR下降同时受这两个因素变化的影响,由生育模式变化导致TFR对终身生育水平的偏离便较难分析。

实际问题:实际工作需要不允许我们等很多年再提供真实队列终身生育统计,而现在只有TFR一种估计方法,并且我们知道TFR还会经常偏离队列终身生育水平,因此急需寻找一种更好的估计来取代它。否则尽管当前TFR的值虽然很低,即使不论统计失真问题,我们也不知道这是否仅仅反映TFR发生了负偏离,那么我们凭什么肯定生育率已经下降到更替水平了。我们又怎么能知道,当生育年龄推迟告一段落时,TFR向终身生育水平回归时会回升多少。要知道更替水平的真正概念是实际上某队列与其终身生育后代数量的比(注:从这个意义上,净人口再生产率等于1仅是一种时期估计的标准,并且也服从上述偏离,并不是真正的更替水平。)。

有关改进:Bongaarts和Feeney(1998)提出了去进度效应总和生育率(TFR'''')。该方法旨在提供一种根据时期数据对终身生育水平的较好估计(注:Bongaarts和Feeney(1998)警告说,这一方法不适用于那种特殊时期效应(即重大灾害等)的年份。)。郭志刚(2001)对此进行了介绍,并用中国多年生育数据对该方法进行了检测和评价,结果是TFR''''作为终身生育水平的估计的确大大优于TFR(注:郭震威(2000)认为TFR''''不伦不类,既不是时期生育指标,又不是终身生育指标,是个尴尬的指标。我认为,它只是应实际需要而产生的另一种根据时期生育信息对终身生育水平的新估计而已,其实这没有什么可尴尬的。统计中凡是不能直接测量的时候,都得采用估计来代替。真正有意义的问题是,它是否比传统TFR更接近于终身生育水平。)。

该方法基本原理可以这样来理解:现实中生育模式转变时,除了导致该年生育数量有所变化以外,还会有其他共生现象,如分孩次的平均生育年龄(MACi)也会变化(注:Bongaarts和Feeney(1998)强调要用分孩次的平均生育年龄,而不能用总的平均生育年龄,因为后者会抹煞实际变化。)。MACi实际上是生育模式转变的测量值,可以在理论上建立其变化量与时期生育变化量之间的函数关系。TFR''''便是在常规分孩次TFR(i)的基础上利用MACi的变化信息来调整,得到去进度效应的分孩次TFR''''(i),然后再汇总为TFR''''。经过调整,TFR''''可以在相当程度上修正TFR距终身生育水平的偏离,因此TFR''''更接近于队列终身生育水平(这里队列仍是泛指的)。也就是说,我们可以用TFR''''来替代TFR原来所承担的终身生育估计的功能,而TFR还可以继续承担描述时期生育水平的功能,TFR''''与TFR之差可以作为生育推延对当前生育水平影响的估计(注:我曾当面请教Bongarts,问TFR''''方法是否可应用于预测模拟,他毫不犹豫地回答说不能。)。

我认为,尽管TFR''''指标还有继续改进的余地(注:比如某一年的MACi的计算还要前一年和后一年的数据,因而多少丧失了一点及时性。然而,我自己曾尝试过另外的计算,比如只用前一年和当年两年的信息,调整的结果也并不差。),但显然Bongarrts和Feeney为解决这一估计问题指出了极富于科学价值的方法论途径。并且,这一新指标不仅可以用于监测队列终身生育水平,也可以用于分析以往的生育数据(郭志刚,2000),帮助我们更好地理解我国的生育转变史和计划生育史。

3缺陷二:总和生育率不能控制育龄妇女的孩次结构

对某些重要因素进行统计控制可以为不同年份或不同地区的比较提供更大的可比性。尽管TFR控制了育龄妇女的年龄结构,但是它并没有控制育龄妇女的孩次结构。然而,当前许多人口模拟研究都不能再忽略育龄妇女的孩次结构问题,否则会有损其研究结果的有效性(注:比如,与调整生育政策相联系的人口模拟如果忽略现有一孩的妇女人数,便无法计算由于多年积累在一孩的这批妇女在政策调整时将产生的特殊生育效应。另外,有关生育政策后果方面的研究(如四二一家庭结构)也有类似问题。)。

问题的表现:实际上生育过程是严格的递进事件,也就是说,只有未生育者才能生育一孩,只有生育过一孩且尚未生育二孩者才能生育二孩。而常规生育率则是以年龄别所有妇女总数作为基数,因而没有容纳育龄妇女的曾生孩次信息,也就不能控制曾生孩次这种结构影响。因此,比较孩次结构差别较大的年份或地区之间的年龄别生育率(或TFR),便不能区分其差异到底是出于生育水平不同还是出于孩次结构不同。当其用于人口预测模拟时,如果假定两地区育龄妇女年龄结构相同,同样的系列生育率的假设会导致孩次结构十分不同的地区(代表着不同生育政策类型)将会有相同的出生人数,显然这严重地偏离实际情况。因此,面对当前的许多研究需要,基于年龄别生育率的TFR方法无论是用于比较分析上还是用于预测模拟,都会影响其结果的有效性(注:至于分孩次的年龄别生育率,只是对分子(即出生)划分了孩次类别,但是并没有对育龄妇女本身划分孩次结构。其基数没有控制孩次结构,因而从本质上说也没有控制孩次结构。)。

替代方法的产生:实际上,计划生育采取了分类指导原则后,便产生了多种生育政策类型,其显著特征便是孩次控制上的不同。在不同地区实施不同政策时,育龄妇女的孩次结构便取得了越来越重要的意义。从这一角度出发,导致Feeney(1985)和马瀛通等(1986)分别以不同思路创建了孩次递进生育指标体系。

他们的共同点在于采用孩次递进比作为生育测量的基础来构建指标体系。如前所述,每年的出生可以划分孩次。如果再将某一群体生育指标的基数由对应口径的年中妇女总数换成年初对应(即前一)孩次妇女时,便称为孩次递进比(注:实际上可理解为一种概率,如本年年初某年龄组(或孩次间隔组)只有一孩的妇女中在本年生育二孩的比例。)。然后,还可以将孩次递进比换算成递进总和生育率。

Feeney的模型突出地考虑了孩次递进间隔因素,不考虑年龄结构,因而常被称为间隔递进模型。而马瀛通等的模型则突出地考虑了年龄递进因素,因此常被称为年龄递进模型。

这两种方法不仅可用于在控制妇女孩次结构条件下的比较分析,也可以用于预测模拟(注:应该指出,其实中国人民大学人口研究所的老一辈人口学家早在1970年代所自行创建的标准(或可变)生育率预测法中也已经包含了控制孩次结构影响的思想(刘铮、邬沧萍、查瑞传,1981)。)。递进方法不仅可以在预测中控制孩次结构,而且应用于模拟预测时实际上比常规生育率方法更方便(注:这里的方便指,它只需要每年期初妇女的孩次别人口数便可以直接乘以递进比便得到对应的生育量,而不需要再计算其中妇女人数。)。由于递进比的概率性质,还能根本避免孩次别总和生育率出现的那种超过1的现象(注:尽管如此,Bongaats和Feeney(1998)认为这一类应用生命表方法的生育指标仍然没有真正控制生育进程变化的影响。)。

主持人评论

本期论坛邀请的三位专家都有多年从事人口统计和数据分析的经验,对人口学研究方法有很深的造诣。王谦副司长通过从多年工作中积累的大量实例,分析了在人口和计划生育工作中经常发生的统计方法和统计数据被误用的情况;郑真真副教授则对统计分析中比较常见的问题进行丁独到的分析和总结;郭志刚教授对总和生育率指标进行了深入全面的剖析,分析了其内在缺陷和改进方法。

王谦副司长通过10个典型实例说明在人口和计划生育实际工作中,统计方法和统计数据在五个方面经常被误用。这五个方面的问题有些属于统计分析中容易犯的错误,带有普遍性,如,错误地解释变量之间的因果关系,在统计分析中忽视定性分析与定量分析的关系,结论不是由统计分析中得出,使得定量分析只是定性结果的一种点缀。有些问题则由于人口与计划生育领域的特点而显得更为严重,如他指出的,大部分人口和计划生育统计指标在村一级或县、乡不适用是因为总体规模不够。统计所研究的是总体的数量关系而不是个别的数量关系,所以统计指标在一定的总体规模下才有意义,这是统计学中的基本概念,但是在实际中却经常被误用。我们经常看到的错误都是统计学上的一些“基本概念错误”,而不是“高深错误”。统计学上的概念和方法可能很简单,也容易理解,但是要在实际工作中正确地、恰如其分地运用并不容易,需要结合研究对象的特点。

郑真真副教授从另一个角度对描述性统计、双变量统计和多变量统计分析中经常被忽视的问题进行了讨论和分析。她不仅指出了问题的所在,而且告诉大家应该如何做,她所讨论的内容是大部分统计教科书上所没有的,具有很大的实用性,对于正确地应用统计分析方法具有很大的指导意义,具体的问题这里就没有必要再评述了。她的分析源于多年教学和科研工作的总结和升华,很多观点具有独到性,如对描述性统计的重视,多变量分析结果的展示和解释,不必求最新、只求最合适的方法。

王谦和郑真真从不同角度对统计分析和统计数据应用中出现的问题进行了分析,郭志刚教授则对人口统计中的一个重要指标-总和生育率进行了深入分析。他指出指标是否有效应该以研究目的为标准来判断,他从总和生育率对终身生育水平的背离和不能控制育龄妇女的孩次结构这两大缺陷出发,对问题的表现形式、实际工作中的需求以及改进方法进行了分析和介绍,其中渗透了他自己近年来对这一问题的研究结果和体会。我看完他的文章觉得获益匪浅,如90年代以来中国的人口调查所得到的总和生育率指标都非常低,这里面有统计漏报的问题,也有总和生育率指标自身的缺陷所带来的问题,在婚育年龄推迟时,总和生育率会低估终身生育水平。在以往的人口学研究中,对方法论的讨论和重视是不够的。研究方法的创新源于实践的需求,面对21世纪更加错综复杂的人口问题,我们需要研究方法的不断创新与发展,这是目前我国人口科学发展面临的一个巨大挑战。

三位专家的分析和讨论有很大的实用性,值得从事人口和计划生育的实际工作者和学者认真学习,但是毕竟他们不可能把所有的问题都归纳概括全面,这也不是本期论坛的初衷。我们希望通过本期论坛起到抛砖引玉的作用,引起同行对这一问题的重视。中国规范的人口学研究毕竟只有20多年的历史,有问题是可以理解的,统计分析方法的误用和研究的不规范在其他学科领域也同样存在,甚至有可能更严重,但是我们不能漠视这种状况继续下去,问题的解决需要全体同仁的重视和努力。我觉得目前至少可以加强以下几个方面的工作:

(1)提倡学术争鸣,鼓励同行之间开展批评,这将有利于学科的发展与规范;

(2)编审人员把好质量关,使在杂志上发表的文章符合学术规范,杂志上文章的示范作用往往比教科书要大得多;

(3)加强统计分析方法的教学工作。强调方法的适用性和在实际应用中应该注意的问题。

认识人口与计划生育统计的特点避免统计方法和数据的误用

由于工作关系和职业习惯,笔者对各种各样有关人口和计划生育的工作报告、分析文章中的统计方法和统计数据比较关注,经常可以发现统计方法和统计数据被误用的情况。本文通过一些实例,分析由于不了解人口和计划生育的特点而造成统计方法和数据误用的情况。

【参考文献】

1刘铮,邬沧萍,查瑞传.人口统计学.中国人民大学出版社,1981

2马瀛通,王彦祖,杨叔章.递进人口发展模型的提出与总和递进指标体系的确立.人口与经济,1986;1,2

3姚新武.中国生育数据集.中国人口出版社,1995

4郭震威.对“去进度效应总和生育率(TFR'''')方法”的一点看法.人口研究,2000;1

5郭志刚.从近年来的时期生育行为看终身生育水平.人口研究,2001;1

6郭志刚.时期生育水平指标的回顾与分析.人口与经济,2000;1

7Feeney.1985.Parityprogressionprojection.InternationalUnionfortheScientific

StudyofPopulation,InternationalPopulationConference,Florence1985,vol.4

人口统计学变量分析第2篇

1常用统计学软件的特点

Excel是我们日常工作中最常用的软件之一。主要用于数据处理、统计分析与计算,简单的数据库管理,而且它能绘制图表,具有检查与删除宏病毒的功能,并能与Internet网络共享资源[3]。此外,还能利用VisualBasicforApplication(VBA)语言开发面向特定应用的程序,但实际应用中很少有人使用。实际工作中我们经常用Excel的两大服务,一是自动计算功能,进行一些报表处理,这时Excel相对于Word来说不仅制表容易,更重要的是Excel有自动重算功能,一个数据被改动了,相应的结果会自动重算;二是Excel的制图功能,它能根据输入表中的数据自动生成曲线图、柱形图、饼形图等,大大减轻了手工制图的工作量。SPSS(StatisticalPackagefortheSocialScienceorStatisticProductsandServiceSolution)forWindows,与Excel相比,SPSS的统计分析功能、图表功能和数据库互接功能更为强大。SPSS软件处理庞大的受随机因素影响的数据时具有速度快、无编程、数据接口方便和功能模块组合灵活等特点。它使用Win-dows的窗口方式展示各种管理和分析数据方法的功能,并使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,只需粗通统计分析原理,就可以使用该软件为特定的科研工作服务。SPSS集数据整理、分析功能于一身。其基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分多个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数[4-5]。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。其分析结果直观、易学易用,而且可以直接读取Excel及DBF数据文件。由于其操作简单,已经在我国的社会科学、自然科学的各个领域发挥了巨大作用。SAS是一套大型集成应用软件系统,具有完备的数据存取、数据管理、数据分析和数据展现功能。SAS系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等等。SAS中各模块具有相对独立的功能范围。常用的模块有base,graph,stat,insight,assist,analyst模块等,分别执行基本数据处理、绘图、统计分析、数据探索、可视化数据处理等功能。编程操作功能的无比强大是SAS系统的长处。尽管高级版本的SAS出现了可视化窗口,然而要想完全发挥SAS系统强大的功能,充分利用其提供的丰富资源,掌握SAS的编程操作是必要的,也只有这样SAS在各个方面的杰出特长才能得以体现。

2结合相关分析探讨比较Excel、SPSS和SAS优缺点

2.1变量的相关分析及两个变量的相关分析

相关分析用于属于平行关系的两个变量的分析。在相关分析中,变量无自变量和依变量之分,而且都具有随机误差。相关分析只能研究变量间的相关程度和性质,不能用一个变量的变化去预测另一个变量的变化。事物间的联系是普遍的。生物学中,作物产量与施肥量、气温、土壤湿度等都存在一定的联系。这种说明客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程就是相关分析。现以20种细胞系的细胞膜和细胞质中蛋白质含量的测定结果为例,通过三种软件的操作来进行两者之间的相关分析。如本例题命名X为细胞膜中蛋白质含量,Y为细胞质中蛋白质含量,见表1。

2.1.1Excel操作Excel通过其分析工具库实现统计分析。数据在工作表中组织后,在“工具”菜单中单击“数据分析”命令。如果在“工具”菜单中没有“数据分析”命令,则需要安装Excel的“分析工具库”。安装过程如下:在“工具”菜单中,单击“加载宏”命令,单击“浏览”按钮,定位到Office安装盘所在位置。安装完成后,再打开“加载宏”对话框,选中“分析工具库”复选框。选择“工具”菜单中的“数据分析”命令,此时弹出“数据分析”对话框。在分析工具列表框中选择“相关系数”。在弹出的对话框中选择输入区域,即数据所在区域;分组方式根据输入数据的方式选择“逐列”或“逐行”。如果输入区域的第一行中包含标志项,则选中“标志位于第一行”复选框;如果输入区域中没有标志项,则此复选框不选。“输出选项”中选择相应选项,以确定分析结果的显示位置。选择完成后,点击确定即可显示相关系数的值。Excel中若要显示统计描述需要在“数据分析”中选择“统计描述”。可显示的结果有:平均、标准误差、中位数、众数、标准差、方差、峰度、偏度、区域、最小值、最大值、求和、观测数、最大、最小、置信度(95.0%)等。相关系数结果见表2。本例X与Y的相关系数为0.55461,相关系数检验的P值为0.001,按α=0.05水准,拒绝H0,接受H1,相关系数检验有统计学意义,膜蛋白和质蛋白之间有55.461%的相关性。这样的统计分析结果对于我们的后续实验有一定的指导作用。

2.1.2SPSS操作SPSS相关分析通过Statistics菜单的Corre-late选项完成。该命令允许同时输入两个或两个以上变量,但系统输出的是变量间两两相关的相关系数。此过程通过对变量进行相关关系的分析,计算有关的统计指标,以判断变量之间相互关系的密切程度。初始设置:单击窗口左下角的“变量窗口”(VariableView),在名称、类型、长度、小数点等处适当设置。完成相关设置后,单击窗口左下角的“数据窗口”(DataView),返回数据填充区。在SPSS工作表中输入表1中的实验数据。输入数据后,即可进行相关性分析。具体步骤如下:选择菜单栏中的分析(Analyze)相关分析(C)两个变量相关分析(B),弹出“两个变量相关”对话框。分别将X,Y变量选入“变量”的方框中,点击“选项”(Options),弹出“两个变量相关:选项”面板,选择“统计”中的“描述”(Descriptive),即可显示出“平均值和标准差”(M),交叉乘积的标准差和协方差(C)选项,然后点击“继续”,重新回到“两个变量相关”界面,本例分别选中“Pearson”,“双侧”和“标识显著相关”,然后点击“确定”,即出现SPSS统计的结果见表3(省略统计描述表格)。从表中可以看出,变量X,Y的相关系数为0.555,交叉乘积的标准差和协方差为267.314,14.069。PearsonCorrelation(相关系数)一列中的星号含义是:显著性水平为0.001(默认值)的情况下,变量X,Y相关系数存在显著差异,与“Sig”一列的结果相对应。从给出结果我们可以看到,比起Excel,SPSS的结果内容更详尽,结果分析更全面。

2.1.3SAS操作与上述两种操作不同之处在于,SAS操作在建立数据集时应指定膜蛋白X与质蛋白Y两个变量。再调用CORR过程求出相关系数。1)设定数据库环境:LIBNAMEA''''C:\USER'''';2)数据步,建立数据集:DATAA.YTLI7_1;INPUTYX@@;CARDS;12.2115.214.5416.712.2711.912.0414.07.8819.811.1016.210.4317.013.3210.319.595.99.0518.76.4425.19.4916.410.1622.08.3823.18.4923.27.7125.011.3816.810.8211.212.4913.79.2124.4;RUN;3)CORR过程,进行相关分析:PROCCORRDATA=A.YTLI7_1;VARXY;RUN;CORR过程的默认输出结果主要包括各个变量的简单统计描述(图略)和一个相关系数矩阵。结果见表4。SAS这种程序化操作过程简单,但需熟练掌握相关的编程语言,而且结果内容也没有SPSS的结果详尽。

2.2Excel、SAS、SPSS的评价

2.2.1数据处理Excel是日常办公的通用软件,也是作为计算机文化基础的一部分而被广泛学习。作为简单的数据处理工具,Excel操作简便,结果直观。SPSS的数据编辑器很像Excel,可以输入数据。SPSS的可视窗口界面和下拉列表可以选择特定命令。但运用SPSS一次只能编辑一个数据文件,在一次涉及多个文件的数据处理中并不强大。SAS在数据处理上可谓功能强大,几乎可以进行任何可能的处理。SAS中的sql数据库可以执行sql查询。只是需要耗费大量时间来学习和理解那些在excel和SPSS中相对容易处理的简单命令。但是SAS可以同时处理几个文件相关联的数据,同时SAS还可以处理多达32768个文件,记录的数量能限制在磁盘最大容量范围内,因此它以强大的数据管理和同时处理大批数据文件的功能,得到高级用户的青睐。

2.2.2统计分析三种软件用于统计分析的高级程度从高到低依次是:SAS,SPSS,EXCEL,就像例题中的操作一样,只要是Ex-cel“数据分析”库中包括的统计部分,都能通过简单的操作给出简单的统计结果。但是Excel只能进行有限的几种运算(平均、标准误差、中位数、众数、标准差、方差、峰度、偏度、区域、最小值、最大值、求和、观测数、最大、最小(1)、置信度(95.0%)等)。SPSS可以运行众多统计分析。其长处在于变量分析和多变量分析,可以进行多种特定效应检测。SPSS的缺点是运算方法不多,只能依照软件中提供的模式进行运算。SAS可以运行多数常用的统计分析。SAS和SPSS一样都属于专业分析统计软件,而SAS的强势在于方差分析,混合模式分析和多变量分析,其不足在于依次多项逻辑回归,运算方法受到SAS语言的限制。

2.2.3图表Excel的图表生成简单,可视化窗口模式形象直观,是日常图表生成的有利工具,而且修饰加工的图形尤其美观,单元格数据与数据分析结果具有“联动”关系,改变其中一个单元格数据,与之相关的Excel公式或图表就会发生相应的改变,具有“即改即见”的效果。Excel2007使之更加完善,这些功能均为SAS、SPSS所望之不及。SPSS窗口界面可以像Excel一样轻松的创建图表。图片质量较高,因此被很多发表文章的作者采用。SAS包括最强大的图表工具SAS/Graph,但是SAS/Graph学习起来很有难度。这种图表大多是通过程序性语言创建的。尽管SAS8以后的版本在创建图表方面出现可视化界面,但还是没有SPSS容易操作,一般适用于高级人士。

人口统计学变量分析第3篇

1 历史分析和地理尺度相结合    

在地理学中,尺度分析是一个重要的方法学上的考量,尺度分析在地理学上主要指代空间尺度和时间尺度。而在过去的研究中,如Zhang等和Pei等,都将地理尺度的思考模式,明确地应用到了历史气候变化和社会经济发展的研究之中。在时间尺度上,章典和裴卿等论证出在短期和长期的时间尺度中,气候变化的影响到底有何不同。同时,在不同的空间尺度下,Pei等以移民为例,定量地论证了空间尺度不同,所得出的研究结论也将有所不同。    

但是需要特别提出,虽然在不同尺度上得出的结论可能有所不同,但是并不相互排斥和抵触,尺度的选择是展开研究的基本立足点,同时也需要再次指出,在研究人地关系领域中,长时期和大空间的宏观尺度更有利于反映气候变化和人类社会之间的联系。

2 统计因果关系的提出    

以往的历史研究中,往往是基于个别事件或某一时段进行深入剖析、综合评价所有可能的影响因素,给出对此特定案例或者特定时段的历史解释。当然,在此相对微观尺度上,如果单纯认为气候变化是这些历史事件发生的原因,这将难免会落入“环境决定论”的陷阱之中。但是在宏观尺度上,往往可以更有效地从统计上证明气候变化作为一个不可忽略的角色在社会经济发展中的存在。因此,Pei等[[36]明确提出了统计因果关系(statistical law)。统计因果关系的提出,不是单纯地建立在数据和统计方法基础上,而是将因果关系理论中的5个标准和统计方法相结合,在大历史数据和统计分析方法之上提出的。虽然该统计因果关系不代表会适用于每一个案例,但是能从一个整体上发现气候变化的作用。同时,统计因果关系是建立在大量的历史资料和宏观尺度上,所以,统计因果关系与现有的传统历史研究得出的结论并不相悖,因为正如前述所说,两者的研究尺度有所不同。

3 历史“大数据”    

在目前的学术研究中,大数据是一个重要的理念。而在历史、环境史或者历史地理中,应该有更多的基于大数据理念推行的研究。目前存在的难度主要有:第一,尺度的选择,在传统的微观尺度上,大数据几乎很难实现,主要是因为历史资料相对缺乏;第二,在传统微观尺度上,即使要展开统计分析,但是样本量较小,这时候加入一个或者减少一个影响因子,对于统计结果而言,会存在较大的统计敏感性。    

然而在现阶段的发展中,由于在宏观尺度上能够使样本量有所增加,即使是减少或增加个别数据,也较难影响最终统计结果的显著性。并且,大量的数据会加强自变量和因变量之间统计关系的稳定性。随着史料的进一步发掘,相信在资料完善的基础上,历史大数据的理念将会被进一步接纳,这需要史学家的不断深入研究。

4.4重新审视马尔萨斯理论    

马尔萨斯学说认为,资源的增长遵循线性模式,而人口增长是指数模式,因此人口增长会超过资源增长,当人口规模超过农业生产,人间悲剧即大规模的人口锐减和非正常死亡将会发生,因此,马尔萨斯辩称人类悲剧的成因是人口的迅速增长。但是,Zhang等和Lee等的研究中,都发现实际上人类的这些悲剧更多是由气候变化导致的农业减产造成的,因为气候变化影响下资源的波动比人口的波动更加明显和剧烈。马尔萨斯学说强调日渐增长的食物需求是起因,而上述发现起因是气候变化导致了食物供给稀缺,这些研究从长时间和大空间尺度上重新审视了马尔萨斯学说。

4 中国与欧洲实证对比研究    

人口统计学变量分析第4篇

一、当前我国人口与计划生育工作现状

在计划生育的前提下,我国的人口计生工作取得了很好的成绩,但是仍然面临着严峻的考验与形势。近几年,随着城镇化的发展和户籍制度的放开,流动迁移人口问题给计生工作带来一定的困难。主要表现为:流动人口范围越来越大;村(居)计生干部不重视出生信息上报的准确率;计生管理人员变动比较大,兼职多,管理不到位;我国人口的人群分布复杂多变,影响计生统计工作的质量。

所以说,我国的人口与计划生育工作形式不容乐观,如果不能解决这些问题,不仅影响政府的科学决策,而且会影响我国经济的发展,另外还会影响政府的公信度。所以人口计生工作必须提高质量,在当今复杂的人口管理下,避免统计方法和数据的误用,以便提高计生工作质量。

二、造成人口与计划生育统计方法和数据误用的原因

(一)基层领导对统计工作不够重视。在经济迅速发展下,各级领导把工作重心移到经济建设中,处处以经济建设为中心,忽略了计划生育工作,在日常工作中不重视人口统计工作。致使人口统计工作中经常出现问题,而无人过问,相关人员就更加不重视统计工作的开展。另外,相关各部门间的协调工作上,基层领导也没有负起应有的责任,致使各部门的工作协调能力很差,计生部门在进行工作时,数据很难及时反馈。

(二)信息化进程步伐缓慢。随着信息技术的发展,人口与计划生育管理工作也应该改变传统的管理模式,利用计算机网略技术来进行人口与计生工作的管理。但是我国计生管理部门的工作人员的计算机应用水平不高,管理信息系统没有完全发挥其作用,仅仅满足了其日常计生工作统计、查询以及简单的数据分析。另外,计生部门计算机应用仍然停留在以数字为中心,没有足够的统计分析应用。计算机主要用于对数据的登记与统计,涉及统计分析、预测与研究的方面很少,降低了统计与调查数据的准确性。

(三)人口本身的复杂性。我国人口基数大,分布不均,人口分布具有群体性特征,同时又有一些比较特殊的个案,其自身的模糊性比较大,但又要求统计工作的精确性,致使计生部门在工作中经常出现错误。比如在计划生育统计工作中,各种人口和计划生育统计指标适用的人群虽然没有明确的规定,但是一般说来这些统计指标不适合用于分析规模较大的人口群体情况,也就是说许多指标在县、乡级使用也不太合适。但是在实际工作中,计生统计报表一般都是由上级制发,各级基层单位按统一的口径填报每个项目。这样一来,上级单位与下级单位计算指标是相同的。在这种情况下,人口计生工作的群体性要求被忽视,没有做到具体情况具体分析。很容易致使计生统计工作的错误。

三、如何避免人口与计生工作中统计方法和数据的误用

(一)重视各部门之间的信息共享。首先应该加强各级领导对计生工作的重视力度,转变原有的观念,认识到计生工作的重要性与必要性,在人力、财力、物力上支持人口与计划生育统计工作的开展。加强人口与计生工作的管理,使计生工作于各级部门相互联系,建立信息共享平台,首先把本地区的与计生部门紧密相连的部门(医院、防疫、卫生等)信息共同录入信息共享平台,再次要以省为单位,使全省的相关部门信息都开放共享,确保计生部门人口统计数据的正确性,以便提高人口统计质量。

(二)提高计生部门的信息化建设。计划生育统计工作要改变传统的以数字为中心的统计方式,转化为能够帮助基层人员和计划生育工作解决实际问题的有用的材料。另外,要完善计生统计分析报告,过去的人口与计划生育统计分析报告仅限于反映人口与计划生育资料的数据变动情况,还要求对各种数据的逻辑关系、变化原因等做一定的分析与预测。同时加强分析检查力度,对统计的信息进行及时的检查与修改,纠正信息不准或不全的统计报表。

(三)按照人口定量与定性的特点进行统计。人口计生的统计分析主要是对数据进行相关统计分析,一般情况下,数据分析通过对人口定量的描述,在对人口进行相应的定性分析。如果没有定性的分析,定量分析也就失去了它原有的作用。定性分析应以定量分析为基础,不能颠倒顺序,否则影响统计方法和数据的准确性。

人口统计学变量分析第5篇

一、前言

人口既是生产者又是消费者,并通过这种两重属性与经济社会产生密切联系,现代系统理论将人类的生存发展作为一个大系统,而人口、经济、社会等都是其子系统,各子系统相互依存、相互渗透、相互影响。人口数量、人口素质、人口结构及人口分布等人口系统的情况及其变动对一个区域的经济、社会发展都具有重要影响作用,这种影响促进还是阻碍经济、社会发展难以凭空判断。

本文以广东省韶关市的人口数据为例,评价分析该地区的人口与经济、社会发展的协调性。韶关市位于广东省北部,属于经济欠发达地区,可将韶关市看作一个具有复杂功能的特殊系统,人口、经济、社会都可以看作这个系统中的子系统,以韶关市2000—2010年人口、经济、社会指标为例计算评价其人口、经济社会发展水平,并分析韶关市人口数量、结构、质量及空间分布是否与本市经济、社会发展水平之间具有协调性,全部数据来源于2011年韶关市统计年鉴。

二、评价人口、经济和社会发展的指标体系

全面、客观地评价人口、经济和社会的协调发展状况需要建立科学的指标体系,并应遵循以下四个基本原则:

1.科学性原则。即指标体系建立在科学的基础上,能够准确、全面、系统地反映人口、经济和社会发展的内涵。2.实用性原则。合理地选择指标,指标数据应易于统计,统计数据能确保权威性。3.完备性原则。指标体系作为一个有机整体,要能反映和测度被评价系统的主要特征。4.可行性原则。从实际情况出发,选择有代表性的综合指标和主要指标,那些在统计上无法量化、数据不易获得或相对不十分重要的指标可暂时不列入。

根据指标体系建立的相关原则,选取的指标如下:

三、人口、经济、社会各子系统综合发展水平的评价

采用主成分分析方法对各子系统综合发展水平进行评价,评价的原理及具体步骤如下:1.收集整理基本数据,采用z—score法对数据进行标准化,得到标准化后的数据;2.通过主成分分析法,求相关矩阵、特征根、本文由收集整理特征向量和方差贡献率;3.求主成分及其得分;4.计算各主成分的得分与其特征值的乘积和得到各系统的综合发展水平值。本文利用spss软件处理上述数据,可自动将原始数据标准化、计算主成分得分。

下面以人口子系统为例,简述系统评价过程:

第一步,收集原始数据,2000—2010年人口子系统所选变量的值见表1,将表1中的6个变量数据粘贴至spss软件中,利用数据分析、降维、因子分析进行主成分分析。

第二步,分析软件输出的公因子方差见表2,表2给出了提取公因子后前后各变量的共同度,它刻画了全部公共因子对于变量xi的总方差所作的贡献,说明了全部公共因子反映出原变量信息的百分比。例如,提取公共因子后,变量x1的共同度为0.980,即提取的公共因子对变量x1的方差做出了98.0%的贡献。从表2的数据可以看出,各个变量的共同度都比较大,说明变量空间转化为因子空间时,保留了比较多的信息,因此因子分子的效果是显著的。

人口、经济和社会子系统综合发展水平值见表5。由表5可以看出韶关市的人口、经济和社会子系统的综合发展水平趋势。2000—2010年人口子系统的综合发展水平值按时间顺序呈现先上升后下降的趋势,2005以前是上升趋势,以后呈下降趋势;经济和社会子系统的综合发展水平值按时间顺序呈现明显的上升趋势。2008年以后人口系统水平又变回负值,2010年水平与2000年相差不大,说明人口方面2005年以前是不断进步的,2005年之后水平呈现逐年退步趋势;经济、社会子系统的综合发展水平在2007年之后发展速度不断加快,这与韶关市经济、社会等各方面建设取得了与日俱增的进步密切相关。

四、人口、经济和社会子系统协调发展状况分析

韶关市人口、经济和社会子系统的综合发展水平值呈现出不同趋势,其中经济、社会子系统的变化趋势相同,而人口子系统综合发展水平值在2005年出现下降趋势,如果韶关市人口水平继续沿此下降趋势发展,人口问题可能会成为制约韶关市经济社会快速发展的不利因素。

导致人口系统综合发展水平值出现先升后降趋势的主要原因也反映了韶关市人口发展方面的一些问题:

首先,常住人口总量减少。尽管韶关市户籍人口每年都以低速增长,但常住人口数量自2005年292.26万人以后不断减少,2010年人口数量降至282.66万人,这主要是由韶关市劳动力流出数量大于流入所致。农村劳动力大量转移对于缓解资源压力、农民增加收入等方面发挥了重要作用,但过度转移对于当地的经济社会发展也会带来诸多负面影响,如本地农业生产劳动力减少、留守老人、留守儿童等一系列问题。高素质劳动力大量转移对本地经济发展也带来了不利影响,例如韶关市本地有多所技校,但是很多毕业生在就业时首选珠三角等经济发达地区,只有少部分毕业生留在本地工作,从而不利于韶关市工业发展。

其次,在校生人数呈下降趋势。尽管韶关市高等学校、中等职业学校、技工学校的在校人数在2000—2010年间呈增长趋势,但由于多年来人口只维持低水平增长率,小学在校生人数由2000年的338916万人降至2010年的207299万人,在校生总人数自2005年开始呈现下降趋势。这个问题也在一定程度上反映了韶关市当前人口结构的不合理现象。

人口统计学变量分析第6篇

【关键词】云南省 对外出口 实证分析 模型检验 政策建议

一、问题的提出

自改革开放以来,云南省的对外出口增长迅速。从1989年到2010年,云南省外贸出口从3.74亿美元上升到76.06亿美元,对外出口总规模增加了20.31倍。尤其在2001年我国加入WTO以后,云南省的对外出口速度更是达到了年均24%的增长(见图1)。

2010年,“中国―东盟自由贸易区”正式建成,云南省政府也在当年适时地提出了“建设桥头堡,把云南打造成我国面向西南开放的国际通道、产业基地、交流窗口和生态屏障”战略构想。云南省希望通过“桥头堡”战略的提出和实施,来促进云南向国际商贸及加工型区域转变,以转变经济发展方式,调整经济结构,实现经济社会向更高水平、更高层次跨越发展。在“桥头堡”战略背景下,对外贸易在未来的云南省经济发展格局中的重要性将会不断提升,但目前对外贸易,尤其是对外出口在云南省GDP份额中所占比例过低,这将直接制约云南省对外贸易的发展。所以通过研究云南省对外出口的影响因素,为提高云南省对外出口占GDP的比重而提出相应的政策建议,具有很强的理论和现实意义。

二、模型的设定和数据的收集

根据对云南和全国外贸出口的相关文献的梳理,本文认为外商直接投资、交通运输货物量、云南省国内生产总值、人民币对美元汇率以及云南省商品零售价格指数是影响云南省对外出口的几个主要因素。而对于交通运输货物量这一指标,由于铁路和公路的货物运输量明显地高于水运和空运货物运输量,所以本文选取云南省统计年鉴中“铁路货物运输量”和“公路货物运输量”之和来作为云南省交通运输货物量。本文使用Eviews6.0软件,选取1989-2010年与云南省对外出口相关的数据,所有数据均来源于《云南统计年鉴》和《中国统计年鉴》。根据选取的五个主要因素对云南省对外出口的影响,本文的被解释变量和解释变量设定如下:

EPO=云南省出口额

FDI=云南省实际利用外资

TRA=云南省交通运输货运量

GDP=云南省国内生产总值

EXR=人民币对美元汇率

PRI=云南省商品零售价格总指数(以前一年为100)

初始模型设定为如下:

EPO=β0+β1FDI+β2TRA+β3GDP+β4EXR+β5PRI +μ

三、实证分析

(一)平稳性检验

由于所选择的自变量和因变量均为时间序列,所以在对解释变量和被解释变量进行最小二乘回归(OLS)分析之前必须要对模型中的变量进行变量的平稳性检验,以防止虚假回归的出现。本文采用ADF方法对变量进行平稳性检验,得到的结果如表1所示。

由上述检验结果发现,EPO、FDI、TRA、GDP、EXR、PRI的 ADF检验在t统计量为5%的显著性水平下的值均大于对应的临界值,所以不能拒绝存在单位根的零假设,序列EPO、FDI、TRA、GDP、EXR、PRI是不平稳的。而经过二阶差分变换后的序列DEPO、DFDI、DTRA、DGDP、DEXR、DPRI的含有常数项的ADF值在5%的显著性水平下均小于对应的临界值,所以拒绝存在单位根的零假设,序列DEPO、DFDI、DTRA、DGDP、DEXR、DPRI是平稳的。即EPO、FDI、TRA、GDP、EXR、PRI都是二阶单整的。

(二)协整检验

由于EPO、FDI、TRA、GDP、EXR、PRI均为二阶单整,所以可以进一步对EPO、FDI、TRA、GDP、EXR、PRI进行协整检验,以判断它们在长期中是否存在协整关系。在此采用了Engle-Granger两步检验法,即先做EPO对FDI、TRA、GDP、EXR、PRI的OLS回归,然后采用ADF方法对回归残差做平稳性检验,若残差序列是平稳的,说明解释变量和被解释变量之间存在着协整关系。对残差序列的平稳性检验结果如表2所示。

根据结果所示,解释变量和被解释变量残差序列的ADF统计量小于5%显著水平的临界值,所以拒绝了残差序列存在单位根的假设,说明解释变量和被解释变量之间长期间存在协整关系。

(三)协整检验结果

由于解释变量和被解释变量之间长期间存在协整关系,所以可以采用OLS法对EPO、FDI、TRA、GDP、EXR、PRI进行拟合回归,OLS回归参数结果如表3所示。

根据OLS结果,得到的模型的初步回归形式为:

EPO=-55236+3.6906*FDI+4.9126*TRA+0.0033*GDP-69.7780*EXR-326.1641*PRI

调整可决系数为0.9674,说明表明所建模型整体上对样本数据拟合较好,即解释变量FDI、TRA、GDP、EXR、PRI对被解释变量EPO的96.74%的差异可以做出解释。在解释变量中,GDP、EXR和PRI的t统计量对应的概率值Prob.均大于0.05,说明在初步回归的结果中,这三个解释变量对EPO没有解释能力。而其余三个解释变量的t统计量对应的概率值Prob.值均小于0.05,表明FDI、TRA、EXR均对EPO有显著性的影响。F统计量为125.5512明显大于5%显著水平下的临界值,认为模型也是有效的。

(四)模型检验

1.经济意义检验

除了EXR和PRI之外,FDI、TRA、GDP和EPO正相关。人民币对美元汇率的上升,说明以人民币为标价的中国商品价格升高,从云南出口到国外的商品在价格上的优势就会下降,云南的出口减少,这符合经济意义。外商直接投资、货物运输量、国内生产总值的增加也都会带动出口的增加。而一般商品价格一定程度上反映了云南出口商品的成本,当一般商品价格上涨时,云南对外出口商品的成本也同样上涨,出口减少。而外商直接投资、货物运输量、国内生产总值与对外出口额成正比也符合经济规律。

2.多重共线性检验

由初步回归的t统计量可以看出,GDP、EXR和PRI的t统计量均不显著,但回归方程的调整可决系数却高达96.74%,说明方程可能存在多重共线性问题。观察可发现,EXR和PRI的t统计量最不显著,二者之间可能存在较强的线性关系。所以可将最不显著的EXR解释变量从模型中去除,再进行OLS回归,结果如表4所示。

剔除EXR解释变量之后,模型的调整可决系数得到提高,而且在新的模型中,FDI、TRA、PRI的t统计量对应的概率值Prob.值均小于0.05。虽然GDP的t统计量对应的概率值Prob.值超过5%,但若将显著性水平放宽为10%,也认为是显著性的,这说明了FDI、TRA、GDP、PRI对于EPO都有较强的解释能力。调整可决系数由之前的96.74%上升为96.89%,F统计量也由125.5512上升为164.5538,这都说明在剔除EXR后,多重共线性现象消除,方程的拟合优度提高,解释意义更强。

3.异方差检验

对可能存在的异方差进行检验,采用 White检验。检验结构:nR2=10.4745,在α=0.05下,χ20.05(4)=9.488,由于nR2>χ20.05(4),所以拒绝原假设,表明模型存在异方差。通常采用的方法是加权最小二乘法(WLS)消除,设定权数w=|1/resid|。而经过WLS消除后,nR2=7.1918,nR2

4.自相关检验

对于自相问题,一般采用的是DW检验,但是由于DW检验只能检验误差项的一阶自相关,而通常情况下模型的误差项会存在更高的相关,这就必须采用Breusch-Godfrey检验法。在滞后2阶的情况下,由Breusch-Godfrey检验法知,nR2=3.6334,在α=0.05下,χ20.05(2)=5.991,nR2

在对最初的模型进行经济意义检验、多重共线性检验、异方差检验和自相关检验之后,可以得到最终修正过后的模型系数如表5所示。

四、促进云南省外贸发展的政策建议

从最终的回归模型形式来看,作为解释变量的FDI、TRA、GDP、PRI的 t统计量对应的概率值Prob.值均明显地小于0.05,说明模型中所有的解释变量均对被解释变量EPO有显著性的影响。再从各个解释变量的相关系数来看,外商直接投资(FDI)、货物运输量(TRA)以及国内生产总值(GDP)每增加1%,云南省出口额(EPO)分别增加3.3665%、3.4731%以及0.0048%;而当一般商品价格水平(PRI)上升或下降1%,云南省出口额(EPO)减少或增加415.4178%。而这其中最值得注意的就是云南省的商品零售价格总指数云南省的对外出口额影响很大。

云南省商品零售价格总指数是4个最终变量中唯一与对外出口呈负的相关关系的变量。这符合经济规律,当以国内价格计价的商品出口到国外时,价格的上涨必然会带来出口货物成本的增加,对外出口额自然下降。云南省的对外出口以一般贸易为主,以2010年数据为例,2010年云南省对外出口总额760568万美元,而当年一般贸易出口443408万美元,占到了总出口的58%,而一般贸易不同于加工贸易,极易受到出口价格波动的影响,在一般贸易中,云南省对外出口货物大多是矿产品、农林产品等资源和劳动密集型产品,所以这就能解释为什么云南省对外出口对商品价格非常敏感。虽然本文在设定模型时剔除了汇率这一变量,但并不是说汇率同云南省对外出口之间不存在相关关系,剔除的原因是由于在统计分析时汇率和商品价格指数之间存在线性关系。云南省对外出口与云南省商品零售价格总指数存在高度敏感性,不仅说明了云南省对外出口优势主要是基于价格优势,还从侧面说明了汇率变动对云南省对外出口存在很大的影响。

通过实证分析,云南的对外出口对于一般商品价格非常敏感,这主要是因为云南省的贸易方式主要是以一般贸易为主,而且出口的货物主要是以矿产品、农林产品等资源密集型和劳动密集型产品,这说明云南省的对外出口还是基于比较优势和H-O理论,属于国际贸易的初级阶段。在人民币对美元汇率长期内升值的大背景下,继续以一般贸易为主将不利于云南省的对外出口增长,所以云南省要抓住东部地区产业结构专业的机遇,基于省内劳动力和自然资源固有优势的背景下,提高云南省内吸引更多加工贸易企业落户云南,重点抓好一批出口规模和潜力较大的加工贸易出口企业,扩大各种加工贸易出口。

同时,由于外商直接投资、交通运输量对云南省的对外贸易还具有较大的促进作用,所以云南省在未来吸引外商投资、改善省内交通运输状况上仍大有作为。在利用外资方面,云南省要拓宽外资来源,引导外资加大对农业和服务业的投资力度,注意提高利用外资的质量,鼓励外资投向云南省具有资源优势的基础产业和基础设施领域,利用外资的进入为云南省的产业发展注入活力,进而推动对外出口的增长;在改善省内运输状况上,要进一步拓宽投融资渠道,加大通道建设投入,完善对外交通网络,充分发挥中国向东盟国家提供的150亿美元的信贷和总额100亿美元的“中国―东盟投资合作基金”作用,加快推进昆明―河内、昆明―曼谷、昆明―仰光等高级国际公路建设,推进泛亚铁路东、中、西线建设,完善配套设施,提高云南省货物通关效率。

参考文献

[1]黄静波,曾昭志.人民币汇率波动、FDI 流入对出口影响之分析[J].中山大学学报,2011(01).

[2]古广东.中国企业对外直接投资对出口贸易影响分析[J].亚太经济,2008(01).

[3]李真.贸易利益失衡分配框架下的技术溢出效应研究―基于1981-2006年中国数据的分析[J].数量经济技术经济研究,2009(11).

[4]孙治宇.影响中国出口贸易的主导因素分析[J].经济评论,2010(03).

[5]刘若鸿.出口退税政策和汇率变动对我国出口影响的实证研究[J].财会月刊,2009(08).

[6]张伟.论中国东盟自由贸易区建成背景下云南对外开放的新挑战[J].云南行政学院学报,2010(05).

[7]黄梅.云南省外贸依存度与经济发展的相关分析[J].西部大开发,2010(01).

[8]任杰,杨晓京,王娜斯,刘月,朱锐,王督.云南省主要出口农产品国际竞争力分析[J]. 安徽农业科学,2010(13).

人口统计学变量分析第7篇

(长春工业大学,吉林 长春 130012)

【摘 要】根据我国的实际情况,结合今年来我国人口发展出现的新特点(劳动人口绝对数量开始步入下降通道,老龄化加速,出生人口性别比持续升高),就计划生育新政策(单独二孩),并综合考虑城镇化,对我国人口数量、结构作出预测。首先根据每10年一次的全国人口普查数据,作出未实行计划生育新政策下出生率和死亡率的预测,再根据生物遗传学,对中国人口发展的遗传学模型分析由于现在我国的计划生育政策是,在农村如果第一胎是女孩,可以生第二胎;然而在城市,则对于双独的可以允许生两胎(假设A表示为非独生,a表示独生),由此该问题遵循孟德尔第一定律,从而建立中国人口发展的生物遗传学预测模型。又考虑到城镇化问题,根据国家统计局2013年我国的城市人口和农村人口的比重达到53.7%,趋于1:1的形式,所以在未进行政策改动前,两地的人口出生率近似为1:1。综上分析,进而对2012至2045年人口数量的进行预测。就单独二孩政策,预测到人口的数量。再根据差分模型和灰色系统模型作出2013年实行单独二孩后我国人口结构的预测对报告的假设和某些结论发表见解。

关键词 单独二孩;人口数量和结构;生物遗传模型;差分模型;灰色系统模型

1 问题分析

根据生物遗传学,对中国人口发展的遗传学模型分析由于现在我国的计划生育政策,由该问题遵循孟德尔第一定律,从而建立中国人口发展的生物遗传学预测模型。进而对2014至2045年人口数量的进行预测。结合研究评论报告的结果和假设,分别建立模型,基于上述因素讨论新政策对未来人口数量、结构及劳动力供给与就业的影响。由于出生性别比受经济、社会,政策多种因素的影响,所以我们用灰色GM(1,1)模型和定性分析相结合的方法进行分析。

2 模型假设

(1)假设:一些大型自然灾害不考虑在内。

(2)假设:假设生育率、死亡率和男女性别比例不随人口流动而变化。

(3)假设:据国家统计局的城市收入等级表数据可得,20%以上属于高收入人群,故假设20%的城市夫妇不生育第二个孩子。

3 符号说明

生物遗传模型

i 年份数(2011年时,i=1)

bi‰ i年份数时人口的出生率

Pi i年份数时的人口数量

di‰ i年份数时人口的死亡率

差分方程模型

bi 生育率

di 死亡率

si 生存率

B 总和生育率

4 模型建立与求解

4.1 生物遗传模型对人口数量的预测

模型的建立与求解

对于农村:

所以最终得到人口数量的预测函数:Pi+1=Pi×(bi+1‰-di+1‰)(5)

所以在计划生育政策改动的条件下,我国未来十年的人口数量见表1。

所以当到2022年时,全国总人口数是149039.6万人。

4.2 差分方程模型和灰色系统模型对人口结构的预测

4.2.1 模型的建立与求解

首先建立差分方程模型,将人群按年龄大小等间隔地分成n个年龄组,记第i年龄组的生育率为bi,第i年龄组的死亡率为di,生存率为si,si=1-di,xi(k)的变化规律由以下的基本事实得到:时段k+1第一年龄组人口数量是时段各年龄组生育数量之和,即

4.2.2 模型验证

由上式可知只要知道t=1时的人口数据就能依次得到以后每年各个年龄段的人口数据,这样进而可以预测年龄在15~59岁的劳动人口数量,我们将年龄分为4组,将全国人口分为0~14、15~49、50~59、60~90四个年龄阶段,此时有

根据中国统计年鉴查得2000~2008的数据出生率bi及死亡率di,通过死亡率求得生存率si。计算知道符合人口发展规律,所以我们用该模型预测各年龄段的人口数量,画图分析人口红利趋势。

如下图即为预测的未来人口红利变化趋势图。

根据预测出的人口红利趋势图可知:人口红利在2010-2015年呈增长趋势,在2015年左右达到顶峰,在2015年之后,若不采取任何措施我国人口红利将呈现急剧下降的趋势,将不利于经济的发展,对我国经济带来巨大的损失。

4.3 老龄化问题

根据建立的动态差分方程模型,可预测数老年人的人口数,然后根据预测出的老年人口数,画出老龄化趋势图,进行分析。

根据图像或者函数表达式可知:我国人口老龄化呈递增趋势。

4.4 灰色系统模型

通过利用MATLAB编程求得a、u,将a、u的值代入微分方程的时间响应函数。

4.4.1 灰色模型的检验

用模型求出各时刻值及误差,从预测数据可以看出我国出生性别比呈下降趋势,到2038年下降到99.2044。所以在人口政策没有改变的情况下,可以利用GM(1,1)进行未来十年的预测。

4.5 差分方程模型

根据问题一中建立的差分方程可预测人口抚养比、老年人抚养比和青壮年、少年、老年人系数的变化趋势。

将图3与图4做对比可知:在2013年实行二胎政策后青壮年人口系数下降较平缓;老年人口系数不再是一直上升,在2037年达到顶峰,之后呈下降趋势;人口性别比变化较平缓。

对于研究报告中:“生育政策的调整,可以缓解20年后中国高度老龄化的挑战,使总人口变化更加平稳,并再次获得人口红利。这对中国的发展,是一个长久大计。”与图4相比,实行新政策后老年人口系数的趋势改变了很多,在20年后出现峰值后,持续下降,在一定程度上解决了人口老龄化问题,少年儿童系数逐年上升,致使人口红利的增加。国家统计局报告显示,2012年末,中国15至59岁劳动年龄人口数量首次出现下降,比上年末减少345万人。

“这是中国人口转型的拐点,意味着‘人口红利’进入收缩期。”中国社科院社会学所副所长张翼说。

在这个时期,“单独二孩”政策符合我国可持续发展的政策。“单独”家庭多数属于中高收入群体,大多数会集中在一、二、三线城市并且对育婴资源和教育资源需求较高。这将会给相关行业带来正面的影响,并且会一定程度上拉动经济的增长。但是随着政策实施,我国学生将面临的优质教学的压力会增加,这就需要各个区域之间不断扩大优质资源的规模与比例。随着城镇的发展,新建的小区相应的配套学校并且优化学校的布局结构显得格外重要。由此可见随着政策的实施,会对城镇化产生积极的影响。

此外随着“人口红利”的衰退与“人口负债”的增加,社会的养老压力逐渐增加,国家实行“单独二孩”政策会缓解人口老龄化社会生产力不足的问题,但是政策的作用区间较长,并且可以从图4看出这段时间将会非常长大约在2050年附近我国青壮年人口系数才会开始增长,老年人口系数才会下降,在“二孩”也就是新一批社会生产力的成长期内国家可以采用延迟退休年龄来保持劳动力的供应与社会抚养能力来弥补这段真空期。使我国的生产力保持在一个适当的水平。并且通过一系列对养老金的统筹计划来减缓人口负债的到来。

人口统计学变量分析第8篇

关键词 北京;水资源;人口承载力

中图分类号 F062.2 文献标识码 A 文章编号 1002-2104(2010)09-0042-06 doi:10.3969/j.issn.1002-2104.2010.09.008

水资源是一个城市人口发展和经济社会发展最重要的不可或缺的资源,而且是难以在短期内增加的资源,因此常常成为决定一个地区或者城市承载力的最“短板因素”而受到极大重视。北京是一个处在我国北方地区的典型缺水城市,随着人口的增长和社会经济的发展,水资源紧张的问题显得日益突出。如何协调人口发展与水资源、环境之间的关系,促进人口、资源、环境和经济健康持续发展,成为摆在人们面前的重大问题。水资源人口承载力的研究可以为此提供有益的参考。

不少学者也曾对北京市的水资源承载力做过研究[1-7]。然而因为所用的方法和采用的指标等不同,因此得到的人口承载力结果相差很大,最大可以达到30倍。而且很多学者的研究,基本上都是一种静态的分析模式。为了能够了解水资源人口承载力变动的内在机制,承载力与其制约因素之间的相互关系,并最终模拟和考察不同参数变化情况下水资源人口承载力的动态变化,从而为政策调控提供参考依据,本文选择系统动力学方法对首都北京的水资源人口承载力进行了定量的动态的分析。

1 方法及原理

系统动力学(System Dynamics)是一种以系统论、信息反馈控制理论为基础,以计算机仿真技术为手段,研究复杂社会经济系统的定量方法。该方法是上个世纪50年代由美国麻省理工学院的J。福瑞斯特教授发明的,最初应用于工业经济中,后来被广泛用于社会、经济和资源环境等多个领域。

其基本原理是:首先,将所研究的具体对象和涉及到的主要因素划归到一个系统中,区分出系统的边界。然后,用正反馈(即一个因素的变化引起另一个因素同方向的变化,例如都增加或者都减少)和负反馈(一个因素的变化引起另一个因素反方向的变化)的分析方式,分析这个系统内不同因素之间存在的因果关系,这样可以将系统内各个因素之间以直接或者间接的关系全部联系起来,形成有多个反馈关系或正负反馈环联系起来的分析系统。再次,分辨系统要素中的主要变量类型,以最基本的状态变量(该变量的任何一时点的值,都等于其上一个时点的值与两个时点之间的变化量)为基础,写出各因素之间的定量方程,并以特定的DYNAMO语言写入计算机,实现计算机的仿真输出。最后,在给定不同的参数条件下,系统将会给出各种可能的系统个变量输出结果,依此可以观察各种方案设置下的系统运算结果,并进行政策性分析。

系统动力学模型本质上是带时滞的微分方程组,能方便地处理非线性和时变现象,并能做长期、动态、战略性的仿真分析与研究。这一研究方法较适用于分析研究系统的结构与动态行为,尤其适合于研究复杂、动态的系统问题,特别是对系统行为进行模拟,可以得到各种不同前提假设下的系统运行的结果,为决策者提供直观的决策后果,被称为社会经济学研究的实验室。

2 首都水资源人口承载力的模型构建

2.1 模型因果关系及分析

本文考虑的北京市水资源人口承载力,包括从总水量和从生活供水两个方面计算的水资源人口承载力。总供水量涉及地表水开发,地下水开采、外调水量以及再生水利用等,生活供水主要由总供水,以及工业用水、农业用水和未来的生态用水决定。工业用水和农业用水都分别与各自的经济发展规模以及单位产值的用水效率有关。再生水由污水排放及其处理率,以及再生水利用率决定。污水排放则与工业发展和人口增长本身有关。按照上述分析,我们建立了系统因果关系图,可以一目了然地看到这些基本的关系(见图1)。

图1 水资源人口承载力的系统内在关系图

Fig.1 Interaction between factors in the dynamic system of

population carrying capacity

童玉芬:北京市水资源人口承载力的动态模拟与分析

中国人口•资源与环境 2010年 第9期2.2 系统的流程图

在上述的因果关系图基础上,我们分辨出工业产值、农业产值、户籍人口、外来人口、地表水供给量、地下水开采量等几个变量为状态变量。其他因素则基本上是一些

图2 北京市水资源承载力的系统流程图

Fig.2 Flow chart of population carrying capacity of Beijing辅变量或常量。按照各因素之间的内在关系,建立系统流程图见图2。

图中,方框中的是水平变量(状态变量),它们是随着时间变化逐年累积的变量,其他变量是辅助变量或者常量。应用系统动力学专用的VENSIM软件,可以方便的写出图2中各类变量以及不同因素之间的定量关系式。然后给出相应的参数和初始值,就可以进行动态的模拟。

3 首都水资源开发利用状况及潜力分析

3.1 水资源量及其开发潜力

如前所述,北京市本地水资源总量少,仅仅依靠本地水资源完全不能满足人口和社会经济发展的需要。境内多年平均降水595 mm,年均降水总量99.96亿m3,形成地表径流21.98亿m3,地下水资源27.09亿m3,扣除地表水地下水重复计算量9.08亿m3,当地自产天然水资源总量为39.99亿m3。受水气补充条件和地理位置、地形等条件的影响,境内降水具有时空分布不均、丰枯交替发生等特点。丰枯连续出现的时间一般为2-3年,最长连丰年可达6年,连枯年可达9年,历史记载最长枯水期为20年。1999年以后,北京连续9年严重干旱。根据北京市水资源公报,2007年北京市的地表水资源量为7.6亿m3,地下水资源量为18.2亿m3。而据统计资料,在丰水年时,北京市的地表水资源量曾经达到20亿m3以上。

根据相关的研究,以及历年的水资源统计数据,北京市在不同水平年的地表水资源量有很大差异。水资源量在平水年(保证率50%)偏枯年(75%)和枯水年(95%)情况下,很不一样,不同的情况下,可开发利用的地表水资源从而总的供水量将会出现很大的不同。参考相关文献[2-4]的分析,并结合《北京市“十一五”水资源利用规划》、北京市2005、2006年水资源公报等资料计算,得到北京市在不同情况下的地表和地下水资源可利用潜力的值如下(见表1):其中在平水年,北京市本地水资源最大可开发利用43亿m3,偏枯水年36亿m3,枯水年只有29亿m3。

表1 不同水资源保证率的可利用量水资源估计(亿m3)

Tab.1 Available water resource under different guarantee rate

项目Item水资源保证率GuaranteeRate平水年(50%)

Normal year偏枯年(75%)

Drier year枯水年(90%)

Dry year(90%)可利用水量433629地表水20136地下水2323233.2 北京市的供水量

北京市的供水基本分为四个来源:即本地地表水、本地地下水开采,跨流域调水以及再生水的利用。地表供水绝对量和比重近年来逐年减少,地下水严重超采,外流域调水和再生水在供水中的份额逐步增大。

表15是2000年以来北京市的供水情况。可以看到,北京市的供水中,以地下水开采量为主,2007年达到24.1亿m3,占总供水量的69.25%,地表水供水量逐年减少,从2002年的9.65亿m3减少到2007年的5.7亿m3,比重则从27.87%减少到16.38%。其他供水比重逐年增大,这里包括了再生水的利用以及跨流域应急调水。

为了弥补供水不足的压力,北京市计划通过南水北调解决北京市的严重供水不足问题。计划在到2010年将引进汉江水10亿m3,2020年引进14亿m3。这将在很大程度上缓解北京市的用水问题,但是难以从根本上改变,而且带来了城市发展的水资源安全隐患。

表2 2002年以来北京市的供水情况 (亿m3)

Tab.2 Water supply of Beijing since 2002

年份

Year供水总量

Total water

supply地表水供水

Surface water地下水供水

groundwater其他供水

others200138.911.727.20.0 200234.62 9.65 24.24 0.73 200335.00 8.33 25.42 1.25 200434.55 5.7126.792.04 200534.50 7.00 24.90 2.60 200634.30 6.35 24.34 3.60 200734.85.724.15.0资料来源:北京市统计网,《北京市统计年鉴2008》

3.3 北京市的用水状况与结构

据北京市水资源公报,北京市每年的用水量从2002年以来一直维持在34亿-35亿m3之间,2007年为34.8亿m3。在各种用水类型中,农业用水在2001年以前一直是最主要的用水大户,近年来逐年减少,2004年开始让位于生活用水排在第二位,但2007年农业用水比重依然占到35.63%。工业用水无论是绝对量还是相对量都呈现显著的下降趋势。生态环境用水量则呈现明显的上升趋势,从2000年的0.43亿m3,已经增加到2007年的2.7亿m3。特别值得注意的是,生活用水无论是绝对值还是相对量,都在上升。2007年生活用水量达到13.9亿m3,为各种用水类型中的第一位,占总用水量的3994%。

表3 北京市的用水量及用水结构(亿m3)

Tab.3 Water use and its structure in Beijing

年份

Year用水总量

Total water

use农业

Water

use for

agriculture工业用水

Water

use for

industry生活用水

Water

use for

life activity生态用水

Water use for

environment199941.7018.4510.5610.122.58200040.4016.4910.5212.960.43200138.9817.409.1812.050.30200234.6215.457.5411.030.80200335.0012.927.6513.490.95200434.5512.977.6512.911.00200534.5012.676.8013.931.10200634.3012.056.2014.431.62200734.812.45.813.92.7资料来源:北京市统计年鉴,北京市水资源公报

4 动态模拟结果及分析

4.1 方案设置

方案1:假定所有指标均保持现状,即不考虑南水北调和再生水的利用,其他方面包括供水结构、用水结构和用水效益等均保持现状不变。该方案可作为其他方案的参照方案。

方案2:增加水资源的综合可利用量,即考虑规划中的南水北调水量以及再生水利用量,其中南水北调水量:按照相关规划,2008-2010年,每年调水3亿m3,2010年至2019年,每年调水10亿m3,2020年以后,每年调水14亿m3,再生水利用:现状为亿m3,利用率为0.37,按照有关规划,2020年达到60%,水量为8亿m3。但不考虑工农业单位产值用水效率的提高。

方案3:在考虑南水北调和再生水的利用基础上,进一步提高生产用水的利用效率。具体设置为:万元工业产值用水假定2010年降为6 m3,2020年降为2.8 m3, 2005年每万元农业产值用水529 m3,假定2010年为450 m3,2020年降为360 m3。

此外,模型还做了一些基本参数设定:

(1)由于水资源的保证程度不同,不同水平年水资源的可利用量也不同。这里假定从现在到2020年北京市水资源保证达到75%的中等保证率作为所有方案的基本假定。

(2)2005年北京市人均总用水量为213 m3/人(这里按照实际用水总量计算,与模型内指标含义一致。如按照水资源计,则人均水平为171 m3/人),人均综合生活用水量现状值为85 m3/人(相当于233L/人.日)。参照联合国给定的人均水资源标准,以及国内其他城市用水标准,并参照北京市城市规划以及“十一五”水资源规划,考虑到未来可能,在前文的可能满意度之间选择了两个人均用水标准:总可利用水的人均水资源标准现状取为250 m3/人.年,到2010年取300 m3/人.年,2020年选择350 m3/人.年;人均生活用水标准现状取90 m3/人,2010年取120 m3/人.年,2020年取135 m3/人.年。因此,本模型中的人均用水标准是两条逐渐升高的曲线。

(3)模型中的其他参数,如工业、农业年增长率、户籍人口的自然增长和迁移,流动人口的年增加量等等,都根据相关规划做了合理的假定。

4.2 模拟运算结果与分析

本模型以2005年为初始年,以2020年为末年进行模拟。步长为1年。

按照总的水资源量,以及生活用水得到的未来北京市人口承载力动态变化结果如表4和图3、图4所示。

表4 不同方案下北京市水资源人口承载力(万人)

Tab.4 Population carrying capacity of beijing

under various scenarios

年份Year方案1Scenarios 1方案2Scenarios 2方案3Scenarios 3生活供水

承载力

Carrying

capacity

of water

use for

life activity总水资源承载力

Carrying

capacity

of total

water use 生活供水承载力

Carrying

capacity

of water

use for

life activity总水资源

承载力

Carrying

capacity

of total

water use生活供水

承载力

Carrying

capacity

of water

use for

life activity总水资源

承载力

Carrying

capacity

of total

water use2005944.3561 2361 274.621 380.651 274.621 380.652006876.1371 206.121 150.931 379.471 338.891 379.472007809.9641 177.14970.6091 377.541 309.041 377.542008745.7771 083.98976.6811 402.651 358.661 402.652009745.7771 025.91869.911 382.951 311.21 382.952010952.3491 090.851 302.581 620.641 769.561 620.642011944.2551 069.461 193.281 595.861 748.091 595.862012936.2981 048.91 080.71 572.131 729.151 572.132013928.4741 029.11964.4951 549.371 713.071 549.372014920.7791 010.05844.2731 527.521 700.211 527.522015913.211991.684719.6261 506.511 690.981 506.512016905.766973.975589.091 485.851 676.721 485.852017898.442956.888453.1711 465.881 665.691 465.882018891.235940.39311.3561 446.531 658.291 446.532019884.143924.451163.0891 427.731 654.961 427.732020877.163909.043296.1661 520.531 800.641 520.53

结果分析如下:

(1)在方案1的情况下,如果一切保持现状不变,无论是总水资源计算的人口承载力,还是按照生活用水计算的 人口承载力都将比现状略有减少。

我们来分析其中的原因。在方案1的情况下,因为一切维持现状,因此无论是总的水量,还是生活用水的供给量,都也将保持原状,但是我们在计算中,所假定的生活水平是上升的,因此,随着时间的推移,人口承载力出现了下降。

因此,这种状况是我们必须要避免地,即随着生活水平的提高,必须要相应地增加水资源的实际可供应量。

(2)方案2中,我们假设按照规划增加了南水北调水量,而且将再生水的利用率从现状37%提高到了60%,但假定工农业用水的效率是不变的。结果是:按照水资源的总水量计算的人口承载力相比方案结果,有了大幅度提高,从当前的1 380万人提高到2010年的1 620万人,随后出现再次减少,直到2020年时再次增加,达到1 520万人。但是按照生活用水计算的人口承载力结果却呈现快速的下降趋势,由于工农业用水量再不降低用水标准的情况下大增,因此即便总水量增加,但因为工农业占用大量的水量,因此生活用水所剩无几,可承载的人口也必然大幅下降,到2019年甚至只能承载163万人,2020年由于南水北

图3 三种方案下生活供水的人口承载力

Fig.3 Population carrying capacity of water use for life

activity under three scenarios

图4 三种方案下总水资源的人口承载力

Fig.4 Population carrying capacity of total water

use under three scenarios调增加14个亿,也才能承载296万人。

因此我们看到,依靠外援和再生水可以使得总水量的人口承载力出现显著的增加,但若不能同时提高水资源利用效率,以生活供水计算的水资源承载力却发生急剧的收缩,其承载力大大低于总水量的承载力,成为首都人口的最大限制因子,导致实际的首都人口承载力的急剧下降。

在方案3的情况下,因为同时考虑了总水量的增加和工农业用水效率的提高,总水资源承载力与方案2保持一样,可见提高水的利用效率对以水资源总量来计算的人口承载力并无影响,但是对以生活供水计算的人口承载力却有着极大影响,其人口承载力呈现了明显的改善和提高:即在2010年的小幅度提高达到1 769万人,随后出现下降,2020年再次出现提高,达到1 800万人的高值。

我们从模拟中发现,按照方案3中的工、农业产值增速,虽然农业总产值从2005年的239亿元(现价,包括农林牧副渔业) 增加到了2020年的322亿元,工业总产值从6 946亿元(现价)增加到 22 034亿元,但是农业用水和工业用水总量却没有什么增加,基本维持现状。在这种状况下,能供给生活的用水随着总水量增加较多,因此生活供水的人口承载力也就呈现比较大的增加。

5 结 论

今后首都的水资源人口承载力将随着两次南水北调水量的增加而出现波动。在2010年南水北调10亿m3时,水资源人口何承载力将有明显的升高,但随后开始随着人均用水标准的提高而出现停滞甚至下降,到2020年调水2020年以后再次出现一个阶跃式增加。本模型只展示了到2020年这一时段的人口承载力变化,实际上2020年以后,人口承载力的增加还会再次停止甚至下降。因此我们看到,南水北调只能解决一时的问题,难以从根本上解决水资源紧张的问题。

我们计算的两个不同口径的水资源人口承载力,结果有很大不同。总的供水量决定的人口承载力,在未厉行节约用水的情况下大于生活用水的承载力,这时生活用水承载力将成为最短板的制约因素,而且情况非常糟糕。在大力提高生产用水效率的情况下,生活用水的制约会大幅减弱,其人口承载力会大幅度提高,并超过总水量的人口承载力,但总水量的人口承载力并不受此影响而出现增加,从而成为最短板的制约因素。

按照到2020年保持偏枯水年的假设,同时按照本模型选择的人均水资源和人均生活用水逐步提高的标准,则在北京市进行南水北调和提高再生水的利用,同时进一步降低工农业生产耗水的情况下,北京市水资源总量在2010年可以承载1 620万人,2020年只能承载1 520万人;按照生活用水计算的水资源承载力将略高于总水资源承载力,2010年为1 769万人,2020年可以承载 1 800万人。

无论从现状,还是到2020年,北京市的人口水资源承载力都不高,人口对水资源的承载压力是十分巨大的。因此,适当控制人口增长,采用水资源集约型的经济增长方式和结构,大力推行节约用水,都是十分必要的。

参考文献(References)

[1]北京市社会科学院. 水资源制约下的北京人口容量模型与预测[J].北京社会科学,2000,(1):35-39. [Beijing Academy of Social Science: The Population Carrying Capacity Model And Projection of Beijing Under the Water Restraining, Beijing Social Science, 2000,(1): 35-39]

[2]赵慧英.北京市水资源与人口规模关系探析[J].中国城市经济,2008,(4):50-52.[Zhao Huiying. A Research on the Interrelationship between Water Resource and Population Scale of Beijing[J]. China City Economy,2008,(4):50-52]

[3]范英英,刘永,郭怀成,王树通,姜玉梅.北京市水资源政策对水资源承载力的影响研究[J].资源科学,2005,(5):113-119.[ Fan Yingying, Liu Yong, Guo Huaicheng, Wang Shutong, Jiang Yumei. The Effects of Water Resources Policies on Water Resources Carrying Capacity in Beijing City[J]. Resources Science, 2005,(5):113-119.]

[4]孟凡德,王晓燕.北京市水资源承载力的变化趋势及驱动力研究,首都师范大学学报:自然科学版,2004,(3):100-105.[Meng Fande, Wang Xiaoyan. A Study on Trend and Driving Forces of Carrying Capacity Change For Water Resources in Beijing[J].Journal of Capital Normal University:Natural Science Edition,2004,(3):100-105.]

[5]北京市经济与社会发展研究所. 首都人口、资源、环境、生态总体关系研究[R].北京市人口计生委招标项目,2008.[Research Institute of Economy and Social Development of Beijing. The Total Relationship between Population, Resource, Environment and Ecology in Capital City, the Report from the Research Project of Population and Family Planning committee of Beijing,2008.]

[6]冯海燕等.北京市水资源承载力系统动力学模拟[J].中国农业大学学报,2006,11(6):106-110.[FengHaiyan,et al. A System Dynamic Model and Simulation for Water Resources Carrying Capacity In Beijing[J].Journal of China Agricultural University, 2006,11(6):106-110.]

[7]杨开忠.构建和谐首都中的人口问题:北京市人口超载形势与对策[J].人口研究,2007,(1):49-53.[The Situation of Population Overloading and Countermeasure in Beijing[J].Population Research, 2007(1):49-53.]

[8]候东民. 北京市人口规模控制体制和机制研究. 载于人口与发展―首都人口与发展论坛文辑第二辑[M]. 北京:清华大学出版社,2006.[Hou Dongmin. The Control Mechanics of Population Scale of Beijing,from Population and Development: Memoir of Capital Population and Development (2)[M].Beijing: Tsinghua University Press,2006.]

Dynamic Simulation and Analysis to Population Carrying Capacity of Beijing

TONG Yufen

(Capital University of Economics and Business, Beijing100070,China)