首页 期刊 通化师范学院学报 基于信息熵抽样估计的统计学习查询策略 【正文】

基于信息熵抽样估计的统计学习查询策略

作者:曲豫宾; 陈翔 江苏工程职业技术学院; 江苏南通226007; 南通大学
信息熵   主动学习   统计学习  

摘要:主动学习查询策略有助于从未标注数据中选择能够提高分类模型性能指标的样例,减少人工标注陈本,基于期望损失最小化的主动学习查询策略有助于选择未标注实例,然而该策略存在计算复杂度高,随机采样性能不稳定等问题,因此,从信息熵具有较强衡量未标注样本的信息量出发,提出基于信息熵抽样估计的统计学习查询策略,该策略使用已标注样例得到的训练模型对未标注实例池中每个样例计算信息熵,选择若干不确定度最高样例并计算相应数据分布的期望经验风险,选择使期望经验风险最小的样例进行标注.在公开的UCI机器学习数据集(包括tic-tac-toe、transfusion、kr-vs-kp、diagnosis、breast-cancer等)上针对不同标注比例(比如20%、40%、60%、80%、100%),以及不同的分类器(比如随机森林、逻辑斯蒂回归等)进行实证研究表明,相对于随机采样策略,该策略计算复杂度从O(N2)降低为O(Q×N),ACCURACY指标在最好情况下最高提升6%.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅