作者:陈兴国; 徐修颖; 陈康扬; 杨光 期刊:《计算机科学与探索》 2020年第03期
为了提高人民生活质量,政府部门不断加强水质管理,然而人工分类方法无法满足实时处理的需求,传统机器学习方法的分类准确率又不够高。集成学习使用多种学习算法来获得比单一学习算法更好的预测性能。首先,对集成学习进行概述,简要介绍了Bagging和Boosting算法,并提出基于协方差自适应调整的进化策略算法(CMAES)的集成学习方法。接着,介绍了数据处理方式、模型评估方法和评价指标。最后,用CMAES集成学习方法对逻辑回归、线性判别分...
作者:冯明刚; 严伟; 朱林奇; 葛新民; 刘帅 期刊:《煤炭技术》 2018年第10期
提出Boosting-PLS回归算法进行页岩总含气量的预测。提取最能反映含气性的密度、中子、铀、钍等测井信息,通过模型自动学习训练样本中输出曲线响应值与总含气量的响应关系,利用所得响应关系建立总含气量预测模型。
作者:励嘉豪; 曾丹 期刊:《电子技术与软件工程》 2018年第20期
房价预测是大数据处理的经典命题。本文基于kaggle平台的房价预测数据集,实现了特征分析、特征清洗、特征工程、特征选择、模型选择和集成学习。其中特征工程中对多达79个特征的处理以及使用Stacking进行集成学习是本文的亮点。除了stacking学习法,本文还尝试了boosting学习法的XGB和LGBM以及Bagging学习法,最终在kaggle.com的最好成绩为0.11274,在世界4000多只队中排名TOP4%,这证明本文模型有效得预测了房价同时避免了过拟合。
作者:康传利; 顾峻峰; 刘兆威 期刊:《数学的实践与认识》 2019年第15期
旅游客流量的精确预测是旅游经济分析及发展规划中的关键问题.以集成学习思想为基础,提出一种基于梯度提升回归树的旅游流量预测模型,针对该模型中最小化目标函数无解析解的情况,对原始模型的树生成算法进行优化,并利用person相关系数分析各影响因素相关性以构建特征向量,对旅游客流量进行精确预测.以桂林市2015年至2018年旅游客流量为例进行分析,通过平均误差、均方跟误差等指标对比分析了指数平滑算法及支持向量机算法的预测精度...
作者:周钢; 郭福亮 期刊:《计算技术与自动化》 2018年第04期
集成学习是当前数据挖掘、机器学习中提升预测精度的重要方法。在介绍集成学习概念、评价标准的基础上,将集成学习划分为基分类器的构建和集成两个阶段,从偏差-方差分解角度,分析集成学习的预测精度主要是通过控制集成模型复杂度和各基分类器差异度实现,研究讨论了集成学习的模型构建阶段的经典算法Bagging、Boosting等,同时分析研究了分类结果集成的普通投票和Stacking方法。
作者:江凯; 王守东; 胡永静; 浦世照; 段航; 王政文 期刊:《测井技术》 2018年第04期
使用Boosting Tree算法,以录井资料和测井资料为基础,优选出自然伽马、自然电位、冲洗带电阻率、侵入带电阻率、原状地层电阻率、密度、补偿中子、声波时差8个对岩性敏感度较高的测井属性,建立岩性识别模型。使用该方法对玛北油田岩石类型齐全的6号井的目的层岩性进行识别,正确率达到89.1%,优于决策树、支持向量机(SVM)等传统的机器学习方法。使用Boosting Tree算法对岩性进行识别也为测井解释提供了新的思路。
作者:陈圣灵; 沈思淇; 李东升 期刊:《计算机科学》 2018年第07期
不平衡数据的问题普遍存在于大数据、机器学习的各个应用领域,如医疗诊断、异常检测等。研究者提出或采用了多种方法来进行不平衡数据的学习,比如数据采样(如SMOTE)或者集成学习(如EasyEnsemble)的方法。数据采样中的过采样方法可能存在过拟合或边界样本分类准确率较低等问题,而欠采样方法则可能导致欠拟合。文中将SMOTE,Bagging,Boosting等算法的基本思想进行融合,提出了Rotation SMOTE算法。该算法通过在Boosting过程中根据...
作者:王琳; 冯正进; 刘成良; 崔光亮 期刊:《计算机工程》 2004年第17期
提出一种用组合多分类器融合局部信息进行人脸识别的方法.人脸识别过程中图像样本间的相似度可建模为"类内差"和"类间差"两种模式类,用这种思想在图像小波分解域的局部区域上构造弱分类器集,然后通过Boosting训练生成强分类器,最终的人脸匹配由多个弱分类器输出的加权和给出决策.实验结果表明,系统具有较高的识别率,对表情和光照变化具有很好的鲁棒性,而且对新个体有较好的扩展能力.
作者:崔林; 付克明; 石生树; 宋瀚涛 期刊:《计算机工程与应用》 2005年第08期
Naive Bayesian分类器是一种有效的文本分类方法,但由于具有较强的稳定性,很难通过Boosting机制提高其性能。因此用Naive Bayesian分类器作为Boosting的基分类器需要解决的最大问题,就是如何破坏Naive Bayesian分类器的稳定性。提出了3种破坏Naive Bayesian学习器稳定性的方法。第一种方法改变训练集样本,第二种方法采用随机属性选择社团,第三种方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征词集。...
作者:石洪波; 黄厚宽; 王志海 期刊:《计算机研究与发展》 2004年第02期
Boosting是一种有效的分类器组合方法,它能够提高不稳定学习算法的分类性能,但对稳定的学习算法效果不明显. TAN(tree-augmented na(i)ve Bayes)是一种树状结构的贝叶斯网络,标准的TAN学习算法生成的TAN分类器是稳定的,用Boosting难以提高其分类性能. 提出一种构造TAN的新算法GTAN,并将由GTAN生成的多个TAN分类器用组合方法Boosting_MultiTAN组合,最后实验比较了TAN组合分类器与标准的TAN分类器.实验结果表明,在大多数实验数据上,B...
作者:张欣; 刘学军; 李斌; 郭汉 期刊:《小型微型计算机系统》 2018年第05期
针对以套取广告费为目的、实施恶意点击欺诈的不法商检测问题,提出一种基于支持向量机(Support Vector Machine,SVM)集成方法的点击欺诈检测系统.该系统首先对几百万条原始点击数据进行一系列数据清洗、整理和统计特征计算等数据预处理,之后利用随机欠抽样(RUS)与合成少数类过抽样技术(SMOTE)相结合的方法处理非平衡数据集得到多个平衡数据集,在每个平衡数据集上分别利用Boosting算法对训练得到基支持向量机迭代生成多个强分...
作者:吴东苑; 杨伟; 唐进法; 李学林; 王晓艳; 刘红梅; 易丹辉 期刊: 2017年第09期
目的:针对中药不良反应数据的不平衡性,探索并应用不平衡数据的处理方法,对中药的不良反应进行预测。本文以使用丹红注射液的患者为研究对象,对来自37家医院集中监测数据进行深度挖掘,在使用了丹红注射液的患者中预测是否发生不良反应。方法:从数据层面采用四种方法:不处理、随机欠采样、随机过采样、SMOTE采样;从算法层面采用四种模型或算法:决策树、随机森林、Ada Boost算法、Gradient Boosting算法,对数据的不平衡性进行处...
作者:周志文; 黄高明; 高俊 期刊:《控制与决策》 2017年第08期
由于单传感器辐射源识别的局限性,在低信噪比条件下仅提高单侦测平台的识别能力无法满足实际需求,为此提出基于协作表示Boosting的辐射源多传感器融合识别算法.利用多传感器数据信息的冗余性和互补性,对多处理支路采用时频分析提取特征,并由协作表示分类器求得残差.根据Boosting在训练阶段的权重组合得到最小分类残差,实现多传感器决策域的融合识别.仿真实验结果验证了所提出方法有效性,并且在低信噪比情况下噪声鲁棒性更优异,易于...
作者:蔡毅; 朱秀芳; 孙章丽; 陈阿娇 期刊:《计算机科学》 2017年第S1期
半监督学习和集成学习是目前机器学习领域中两个非常重要的研究方向,半监督学习注重利用有标记样本与无标记样本来获得高性能分类器,而集成学习旨在利用多个学习器进行集成以提升弱学习器的精度。半监督集成学习是将半监督学习和集成学习进行组合来提升分类器泛化性能的机器学习新方法。首先,在分析半监督集成学习发展过程的基础上,发现半监督集成学习起源于基于分歧的半监督学习方法;然后,综合分析现有半监督集成学习方法,将其分...
作者:张光亚; 方柏山 期刊:《生物工程学报》 2006年第06期
采用Boosting机制的决策树集成分类器对嗜热和常温蛋白进行模式识别。通过自一致性检验、交叉验证和独立样本测试三种方法检测,其中作为Boosting算法中新的Logitboost算法表现更好,其识别的精度分别为100%、88.4%和89.5%.优于神经网络的识别效果。同时探讨了蛋白质分子大小对识别效果的影响。结果表明,将Boosting算法与其它单一分类器有效结合,有望提高研究者对生物分子相关特性的识别能力。
作者:查宇飞; 楚瀛; 王勋; 马时平; 毕笃彦 期刊:《计算机学报》 2007年第08期
在视频处理中,由于运动阴影具有与运动前景相同的特性,当在提取前景时,会误把阴影检测为前景.特别是当阴影和其它前景发生粘连时,这可能会严重地影响跟踪、识别等后续处理.该文提出了一种用于运动阴影检测的Boosting判别模型.这种方法先利用Boosting在不同的特征空间来区分前景和阴影,然后在判别随机场(DRFs)中结合前景和阴影的时空一致性,实现对前景和阴影的分割.首先,差分前图像与背景图像得到颜色不变子空间和纹理...
对AdaBoost算法作了详细的分析:AdaBoost是一种有效的分类器组合方法,他用某个分类算法生成一系列的基分类器,每个基分类器的训练依赖于在其之前产生的分类器的分类结果,基分类器在训练集上的错误率用于调整训练样本的概率分布,最终分类器通过单个基分类器的加权投票建立起来。最后将该算法应用于车牌照的汉字识别,对识别效率有大幅度提高。
作者:任红格; 刘伟民; 李福进; 张春磊 期刊:《现代电子技术》 2016年第12期
针对CT的目标跟踪算法,在外界环境光照改变、目标姿态变化及目标发生遮挡时出现跟踪飘移或丢失目标等问题,提出一种基于Kalman预测器的CT多特征加权目标跟踪算法。首先根据跟踪目标特征的稀疏特性,利用随机采样在线更新获取特征的离散样本,引入Online-boosting的多特征加权权值,优化置信图估计,并利用Kalman预测器预测修正跟踪目标区域位置。对三组不同场景图像序列测试结果表明提出的算法能够快速准确地实现复杂环境下的运动目标...
运用决策树技术对高频心电图进行分类和识别.采用Bagging和Boosting方法,分类准确率得到一定程度的提高,从76.3%分别升至79.8%和77.5%.采用代价敏感决策树,异常心电图的识别率得到明显提高,达到75.0%,但是分类准确率大幅度下降为53.2%,正常心电图的识别率急剧恶化,从93.2%降为42.7%.通过实例选择优化训练集,重新构建决策树,分类准确率和异常心电图的识别率均得到明显提高,分别升至84.4%和73.2%.与BP神经网络、RBF神经网络、支持向...