首页 公文范文 高校四级成绩数据的重采样方法研究

高校四级成绩数据的重采样方法研究

时间:2022-11-11 10:52:46 关键词: 高校 四级 成绩数据 重采样
摘要:本文采集广州华商学院各专业学生在2017学年的四级成绩数据,共计9860条有效数据,并对收集的数据进行对数化处理,数据对数化可以使得样本数据更加光滑,消除异方差,同时减小数据波动范围。

高校四级成绩数据的重采样方法研究

0引言

大学英语等级考试一直以来都是高校学生参与度最高的全国性考试,其考试成绩不仅反映了学生的英语学习能力,其证书也是高校毕业生求职应聘中所必备的。评估高校各专业整体英语应试水平,对于高校管理层在专业层面上提出相关英语教学改革措施极为重要。Bootstrap与Jackknife是抽样调查中常用的重采样方法,Jackknife是由Quenouille[1,2](1949/1956)作为减少系列相关系数估计量偏倚的一种方法提出的,后来逐渐成为复杂样本方差估计的一种重要方法。Bootstrap是由B.Efron[3](1979)在Jackknife的基础上提出的一种利用重抽样方法对总体参数进行估计的统计方法。吕萍[4](2017)指出在数据分析中,若忽视层、群等抽样设计的复杂性,直接利用调查数据按照传统数据分析方法,容易得出错误的结论,尤其是涉及标准误的估计。Bootstrap方法的优势在于对小样本进行评估时,可极大地降低评估样本不足对评估结果的影响[5]。该方法也在估计中存在些许不足,主要体现在重抽样都是在已知的样本观测数据中进行的,这使得自主样本与原样本的相似度较高,并且样本量越小,其相似度就越高,估计结果与真实分布的差异性也会越大[6]。Jackknife方法在方差分量估计和标准误估计上都较为准确,且其估计的准确性不随数据类型、研究设计和方差分量的不同而产生波动,具有较强的稳健性[7]。Jackknife方法不足之处主要体现在:估计总体统计量时只利用了很少的信息,各采样样本之间的差异很小,每两个Jackknife样本中只有两个单一的观测值不同。本文在估计总体样本均值的过程中,考虑到Jackknife算法与Bootstrap算法存在的不足,提出Bootstrap-Jackknife算法,得到了更接近于总体样本均值的估计值。

1数据与估计方法

1.1数据来源与处理

本文采集广州华商学院各专业学生在2017学年的四级成绩数据,共计9860条有效数据,并对收集的数据进行对数化处理,数据对数化可以使得样本数据更加光滑,消除异方差,同时减小数据波动范围。

1.2Normal

将采集得到的观测样本x1,⋯,xn当做总体样本的近似,通过观测样本得到各样本统计量值以估计总体统计量,其中总体标准差的无偏估计如式,Bootstrap是一种著名的方差估计方法,其思想是通过重复抽样来估计总体分布。具体来说就是将得到的样本Fn(x)当做总体F(x)的近似,θ是θ的一个估计,通过从得到的样本中重复有放回抽样生成经验累积分布函数F*n(x),对生成的F*n(x)样本进行相应计算得到θ*,利用一系列θ*实现θ的置信区间评定。本文为了使全部的数据尽可能被采集,使得总体统计量的估计结果更为稳健,规定抽样次数B=2000;⑶对一个估计量θ的标准差进行Bootstrap估计就是将Bootstrap重复实验θ(1),⋯,θ(B)的样本标准差作为估计值,Jackknife可用于总体估计量的不确定估计,旨在减少估计的偏差。其思想为“去一”抽样,假设获取样本样本量为n,在第i次抽样中去除第i个样本数据i=(1,2,...,n),用剩下的(n-1)个数据作为抽样样本计算θ(i),分别对生成的n个样本计算相应的样本统计量,从而实现总体统计量的置信区间估计。具体步骤如下:⑴从观测样本x1,⋯,xn中做i次Jackknife抽样,生成第i个Jackknife样本⑵对n个Jackknife样本计算估计值θ(1),θ(2),⋯,θ(n);⑶当利用Jackknife对θ进行标准差估计时,21.5Bootstrap-Jackknife在实际应用中,Bootstrap对估计量的相关估计值具有随机性,即每一次运用Bootstrap算法抽样得到的估计值并不相同,而使用Jackknife对统计量进行估计时,各采样的样本之间的差异太小。本文考虑到Bootstrap与Jackknife的不足之处,结合两种算法,创新性地进行相关方差估计。采用Bootstrap选取多组样本,随后采用Jackknife对每组样本分别进行均值与标准差的估计,结合实际训练数据发现该方法得到的估计值稳健度更高。本文实现Bootstrap-Jackknife的具体步骤如下:

2实例分析

分别采用Normal、Bootstrap、Jackknife、Bootstrap-Jackknife方法,对实际样本数据进行均值估计,实际训练样本为该校各专业学生在2017学年的四级成绩对数。估计结果对比情况如图1所示。由图1数据可以看出:①对于Normal、Jackknife与Bootstrap-Jackknife这三种方法计算出的均值估计量仅有细微差异,而Bootstrap得到的均值估计值与其他三种方法得到的均值估计值相差较大;②对于标准差估计,Bootstrap-Jackknife估计得到的标准差要远远小于其他三种方法估计的标准差,这说明在对总体均值的估计中,Bootstrap-Jackknife的估计误差最小,即利用该方法得到的均值用来估计总体均值,其精度最高。另外Bootstrap与Jackknife的标准差估计值几乎重合为一条折线且远小于普通法的标准差估计值,这说明利用Bootstrap与Jackknife对估计量进行估计,其可信度要高于普通法得到的估计量值。为了更明显的显示四种方法估计样本均值的差异,本文将四种方法得到的样本数据均值估计值进行排序,具体排序结果如表1所示(仅列举部分)。表1四种方法估计的均值排序对比英语国际商务会计学(ACCA班)...环境设计视觉传达设计产品设计B为比较Bootstrap-Jackknife方法与其他三种方法排序结果之间的差异,本文将各专业Bootstrap-Jackknife排序结果与其他三种方法得到的排序结果做差值处理,并进行绝对值运算,依据各差值结果绘制箱线图,如图2所示。图2各结合表1排序数据与图2箱线图可以看出:第一,Normal与Bootstrap-Jackknife在专业排序上的差异甚微,Bootstrap-Jackknife与Jackknife在专业排序上的差异最为显著,这说明就均值估计而言,Jackknife估计的稳定性并不高;第二,就排序数据上来看,该校英语四级应试能力前三的专业为英语、国际商务和会计学(ACCA班),而英语四级应试能力较差的专业为环境设计、视觉传达设计、产品设计这三个艺术专业。

3结论

本文基于广州华商学院2017学年各专业学生四级成绩数据,运用Normal、Bootstrap、Jackknife和Bootstrap-Jackknife四种方差估计方法分别评估该校均衡,是一种均匀的密集采样,导致训练困难。

4结束语

本文选用的YOLOv3和SSD框架可实现四种阔叶材高效、准确辨识,YOLOv3框架辨识准确率更高,而SSD框架用时更短。总体而言,SSD对四种阔叶材做到了更高效自动辨识,可以在保证辨识的正确率前提下能够更快的处理样本,提高了阔叶材的识辨识效率。本文识别准确率没有达到100%,综合分析与图像特点有关。本文只对四种木材样本进行研究,阔叶材种类相对单一,但是每种阔叶材采集的样本量较大,结果更具有适应性,下一步将从提高样本的多样性入手,增加不同阔叶材材种的训练集,从而提高模型的抗干扰和泛化能力,使其更适应于更多阔叶材材种的辨识。

作者:夏艳 张丽娟 单位:广州华商学院