作者:廖文雄; 曾碧; 梁天恺; 徐雅芸; 赵俊峰 期刊:《计算机工程与应用》 2020年第04期
随着电商平台分期付款方式和P2P信贷平台的不断推广,如何从海量的用户信贷数据中挖掘出潜在的用户模型并对未知用户进行信贷风险评估,以降低信贷业务的风险,已经成为研究的主流。针对现有方法无法高效处理高维度信贷数据的问题,使用一系列的数据预处理方法和基于Embedded思想的特征选择方法XGBFS(XGBoost Feature Selection),以降低用户信贷数据维度并训练出XGBoost评估模型,最终实现用户信贷风险评估。实验表明,与现有的方法相比,...
作者:涂吉屏; 钱晔; 王炜; 范道远; 张涵宇 期刊:《计算机科学与探索》 2020年第02期
软件故障预测中若采用大量度量指标建立预测模型,可能因其中含有无关特征使预测模型性能受到不良影响,故障预测中的特征选择步骤选取一定维度的部分故障数据建立预测模型来提高模型性能,以达到压缩特征维度,提高模型预测精度,降低预测模型复杂度,节约计算资源的目的。传统特征排序方法仅评估单个特征对类标的影响,建立的预测模型有效性较低;特征子集选择方法需搜索所有特征子集,耗费计算资源且所选特征维数较高。针对以上问题,提出...
作者:武玉坤; 肖杰; 李伟; 楼吉林 期刊:《计算机科学》 2020年第02期
大数据的发展对数据分类领域的分类准确性有了更高的要求;支持向量机(Support Vector Machine,SVM)的广泛应用需要一种高效的方法来构造一个分类能力强的SVM分类器;SVM的核函数参数与惩罚因子以及特征子集对预测模型的复杂度和预测精度有着重要影响。为提高SVM的分类性能,文中将SVM的渐近性融合到灰狼优化(Grey Wolf Optimization,GWO)算法中,提出了新的SVM分类器模型,该模型对SVM的参数与数据的特征子集同时进行优化,融合SVM渐近...
作者:赵淑渝; 张宏海 期刊:《科研信息化技术与应用》 2019年第03期
本文以华南-槽批LPG价格为研究对象,基于自身历史数据,竞争对手数据和与LPG价格相关的国际指标数据预测未来7天、10天、15天等不等周期的价格。为预测LPG价格,本文分别对数据采集和预处理、特征选择,以及模型算法进行了研究,最终选择随机森林模型框架对LPG价格进行预测。本文以金联创提供的2016年1月到2019年2月数据为例,使用随机森林算法分别针对不同种类的特征作为输入进行LPG价格预测。结果表明,不同种类的特征对预测结果的影响...
为了实现网络入侵的自动检测,提出基于特征选择算法的网络入侵检测方法,在区块链分层路由网络中进行网络传输信息采样,建立网络输出的均衡信道模型,提取区块链分层路由网络传输数据信息流的异常谱特征量,根据谱特征提取的差异度进行网络入侵特征选择,建立网络入侵检测的区块链特征检测模型,采用自适应神经网络学习算法进行区块链分层路由网络恶意入侵检测中的收敛性控制,实现区块链分层路由网络的入侵检测和特征选择,在Matlab和嵌...
由于铝电解中发生的阳极效应对铝的生产有诸多不利影响,有效地预测阳极效应可以提高生产效率。为了从监测数据中提取更多与阳极效应发生相关的信息,本文提出了基于小波包分解与多尺度排列熵特征提取方法,比较了最小冗余最大相关、Relief与卡方检验三种特征选择算法,使用XGBoost分类模型对阳极效应数据集进行训练和预测。实验结果表明,在使用原始特征的基础上增加小波包分解子信号的多尺度排列熵特征能够提高阳极效应预测准确率。
作者:陈铁明; 王小号; 庞卫巍; 江颉 期刊:《网络与信息安全学报》 2016年第05期
微博文本具有短小快捷、主题多变等特点,社交话题检测与跟踪研究面临新的挑战。结合微博的话题时序性和短文本语义相似度等特点,提出了基于微博聚类的话题检测与跟踪系统方法。首先,通过定义微博文本的时序频繁词集,给出面向热点话题的特征词选择方法;然后,根据时序频繁特征词集,利用最大频繁项集获得微博初始聚类;针对初始簇间存在文本重叠情况,提出基于短文本扩展语义隶属度的簇间重叠消减算法,获得完全分离的初始簇;最后,根据簇...
作者:景永霞; 苟和平; 王治和 期刊:《西北师范大学学报·自然科学版》 2020年第01期
针对传统文本特征选择算法没有考虑特征的语义及特征与类别之间关系的问题,提出了一种结合语义和分类贡献的特征选择算法.利用LDA主题模型获取文本和词的表示,通过计算词与文本之间的语义相似度,获取词对文本的重要性.再利用Word2vec词向量模型获取文本类别特征,通过计算文本中的词与文本类别特征之间的语义相似度,获取词对类别的重要性,最后结合词对文本的重要性和词对类别的重要性选择分类贡献度高的词作为最终的分类特征.实验表...
作者:刘思涵; 尚夏明; 马婷 期刊:《北京测绘》 2019年第12期
以八面通林业局林场为研究区,选取多时相高分一号WFV影像,提取遥感特征构建多时相特征集合,根据归一化特征重要性排序选出最优特征子集,用随机森林法实现森林类型分类。结果表明:多时相影像的总精度较单时相影像提高了7.95%-15.13%;除纹理特征外,光谱特征结合其他类型特征的分类精度均高于光谱特征分类;基于随机森林特征选择的分类精度最高,利用24个特征进行分类时,分类精度达到83.97%,Kappa系数为0.7749,说明特征选择可降低数据冗...
作者:曹爽; 潘锁艳; 管海燕 期刊:《测绘通报》 2019年第11期
机载多光谱Li DAR技术利用激光进行探测和测距,不仅可以快速获取地面物体的三维坐标,还可以获得多个波段的地物光谱信息,可广泛用于地形测绘、土地覆盖分类、环境建模、森林资源调查等。本文提出了多光谱Li DAR的随机森林地物分类方法。该方法通过对Li DAR强度数据和高程数据提取分类特征,完成多光谱Li DAR的随机森林地物分类;并分析随机森林的特征贡献度特性,采用后向特征选择方法实现分类特征选择。通过对加拿大Optech Titan多光...
作者:张鹏; 胡守庚 期刊:《农业工程学报》 2019年第20期
实现复杂农区作物种植信息的精准、动态监测是中国农业精细化管理面临的迫切需求,而作物种植碎片化和异质性给作物遥感精细分类带来了诸多挑战,该文旨在探索基于高分辨率影像的地块尺度多种作物同步识别方法,以满足实时获取复杂农区作物详细分布信息需要。研究选取武汉市新洲北部为典型区,以WorldView-2影像为数据源,利用ReliefF-Pearson方法优选作物遥感特征,采用人工神经网络、K最近邻和随机森林算法进行作物分类,并对比分析其精...
作者:李金霞; 赵志刚; 李强; 吕慧显; 李明生 期刊:《青岛大学学报·工程技术版》 2019年第04期
现有的特征选择算法更多的只强调数据局部性,忽略了数据间的相似性。针对这一问题,提出一种基于局部和相似性嵌入的特征选择算法,将图学习、特征选择和稀疏编码并入到同一个模型中,强调数据的局部性和相似结构,通过寻找一个能保持数据局部性和相似性的投影矩阵来选择最相关的特征。通过实验与目前流行的几种算法进行对比,验证了本文方法的有效性。
作者:王建峰; 郄英杰; 乔源; 赵文杰 期刊:《仪器仪表用户》 2020年第01期
本文分别提出了基于互信息变量选取、相关系数法、方差选择法等特征选择方法对影响飞灰含碳量的因素进行选择,并通过PLC和上位机组合的方式对选择得到的特征量进行实现和在线监控。首先,介绍了锅炉燃烧机理,机理分析得到影响飞灰含碳量软测量模型建立的辅助变量;然后,针对选取得到的辅助变量进行数据预处理,以处理之后的数据作为特征选择的原始数据;最后,对处理后的数据采用互信息法、相关系数法、方差选择法等方法对影响飞灰含碳...
作者:何晓群; 夏利宇; 姜天英 期刊:《数理统计与管理》 2019年第05期
征信数据中的客户往往呈现'好多坏少'的不平衡结构,这种结构使得一般的分类模型在预测客户信用表现时失效。本文基于零膨胀计数模型的建模思想,分别提出处理因变量为二分类变量、多分类变量、计数变量的零膨胀信用评级模型(ZICSM),将客户结构拆分为稳定好客户、不稳定好客户和坏客户三个部分,利用模型自身优势形成严谨和宽松的两套贷款审批机制。ZICSM模型对目标函数进行权数调整,使模型更加关注'坏'客户,在目标函数中加入惩罚项,...
作者:李大中; 王超; 李颖宇 期刊:《电力科学与工程》 2019年第09期
提出一种利用极端梯度提升XGBoost算法对风机叶片结冰状态进行评测的方法。首先解决风电机组SCADA数据中叶片正常与结冰状态之间的类别不平衡问题。利用随机森林算法挖掘数据特征与叶片状态之间的关系,筛选出与叶片结冰关联性较强的特征,利用预处理好的数据对XGBoost算法模型进行训练和测试。通过与梯度提升树(GBDT)、随机森林(RF)、支持向量机(SVM)和最近邻(KNN)模型验证比较,表明XGBoost算法在风机叶片结冰状态预测中具有良好的...
作者:姜文婷; 陈燕; 亢中苗 期刊:《自动化技术与应用》 2019年第12期
随着电力通信网络及大数据应用技术的发展,用户对于网络安全的需求性也越来越高,因此网络中的用户喜好挖掘后的隐私保护也变得愈发重要。为了有针对性地实施终端用户隐私的保护,本文提出了一种基于用户偏好的主客观混合的体验质量(QoE)评估模型。本文以协同过滤方法为基础,根据用户使用记录实现基于用户群体的兴趣挖掘,从而满足单个用户数据的隐私保护并且降低模型判断复杂度,有效地保证了数据安全问题。实验结果表明,划分用户类型...
作者:黄琴; 钱文彬; 王映龙; 吴兵龙 期刊:《智能系统学报》 2019年第05期
在多标记学习中,特征选择是提升多标记学习分类性能的有效手段。针对多标记特征选择算法计算复杂度较大且未考虑到现实应用中数据的获取往往需要花费代价,本文提出了一种面向代价敏感数据的多标记特征选择算法。该算法利用信息熵分析特征与标记之间的相关性,重新定义了一种基于测试代价的特征重要度准则,并根据服从正态分布的特征重要度和特征代价的标准差,给出一种合理的阈值选择方法,同时通过阈值剔除冗余和不相关特征,得到低总...
作者:李鱼强; 潘天红; 李浩然; 邹小波 期刊:《光谱学与光谱分析》 2019年第12期
近红外光谱技术是一种通过分析样本的特征光谱数据,实现定性或定量分析的无损检测方法,特征数据的完整性和代表性决定了所建模型的性能,而现有分析方法只能实现光谱子区间特征筛选,导致分析模型稳定性差、且难以再优化。为实现近红外光谱区间高维数特征提取,有效提高近红外光谱定性分析模型的精度和稳定性,提出一种基于最小绝对收缩和选择算法(LASSO)的光谱特征筛选方法,并以我国特色高值外贸产品云南松茸为分析对象进行聚类应用研...
作者:周洁敏; 戴美泽; 卢朝阳; 周凯 期刊:《航空计算技术》 2019年第05期
航班延误受到多种因素的交叉影响,导致航班延误数据分布不规律,难以从传统统计学的角度准确预测航班延误时间,因此以减少数据过拟合为目标,利用随机森林特征选择模型筛选21个重要特征,引入正则化L1、L2范数,建立弹性神经网络预测模型,对航班落地延误时间进行预测。预测结果为:±3 min容差内的准确率达到83.954%,±5 min容差内的准确率达到94.431%,结果表明该模型能够提高航班延误预测的准确率。
作者:唐晓娜; 张和生 期刊:《遥感信息》 2019年第06期
针对高分遥感影像分类过程中面临的特征维数高、数据冗杂度严重问题,从机器学习的角度提出了混合粒子群优化遗传算法的特征优化方法。此方法发挥2种机器学习算法优势,以Relief F算法进行初步特征筛选,再利用新二进制粒子群优化遗传算法确定优化特征集用于随机森林分类器进行城市用地信息的提取。通过与全特征、Relief F算法、GABPSO算法3种特征提取方法进行比较,验证此方法的优越性。结果表明,基于Relief F和GANBPSO算法的混合特征...