摘要:少数类样本合成过抽样技术(SMOTE)是一种过抽样数据预处理算法,是在两个少数类之间随机插入一个新的少数类样本.为了解决SMOTE算法生成少数样本随机性的局限性,在考虑多数类样本分布会对少数样本的生成产生影响的基础上,提出了改进的SMOTE算法.在WEKA平台上分别使用改进前后的SMOTE算法对选用的UCI数据集进行过抽样数据预处理,并使用朴素贝叶斯、决策树和K邻近分类器对过抽样后的数据集进行分类,选择几何均数(G-mean)和曲线下面积(AUC)两个评价指标,实验显示改进后的SMOTE算法预处理的数据集的分类效果更好,证明改进后的SMOTE算法生成的少数类样本更加合理.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社