作者:张秦浩; 敖百强; 张秦雪 期刊:《系统工程与电子技术》 2020年第02期
在未来的战场中,智能导弹将成为精确有效的打击武器,导弹智能化已成为一种主要的发展趋势。本文以传统的比例制导律为基础,提出基于强化学习的变比例系数制导算法。该算法以视线转率作为状态,依据脱靶量设计奖励函数,并设计离散化的行为空间,为导弹选择正确的制导指令。实验仿真验证了所提算法比传统的比例制导律拥有更好的制导精度,并使导弹拥有了自主决策能力。
本文将在面向智慧城市的多精度群智感知背景下,设计基于Stackelberg博弈模型的定价激励机制来解决这三方面问题。首先在完全博弈信息条件下确立最优定价的存在条件,然后在用户感知成本不确定的情况下,设计了基于Q学习的动态定价算法SPA。在多个场景下的仿真结果验证了算法具有很好的用户适应性、成本节约性和感知安全性。
作者:刘智斌; 曾晓勤 期刊:《工程科学与技术》 2012年第05期
为了提高强化学习算法的运行效率和收敛速度,提出了一种基于路径引导知识启发的强化学习方法PHQL。采用PHQL方法,不需要提前植入先导知识,agent在每一轮学习过程中更新Q表的同时,各个状态的路径知识也自主地建立起来并逐步修正和优化。算法利用已经获得的路径知识来指导和加速agent以后的强化学习过程,以减少agent学习过程的盲目性。分析了PHQL算法的探索、利用和启发3种行为的执行概率以及行为选取方法,提出一种行为选择概率随时...
作者:周彤; 洪炳镕; 周洪玉 期刊:《信息技术与网络安全》 2005年第10期
提出了一种新的多机器人系统学习结构,这种学习结构能够降低环境状态空间和机器人的动作空间,加快学习速度.该方法的有效性在机器人足球比赛中得到了验证.
作者:薛俏; 丁慧霞; 张庚; 朱毅; 孟萨出拉; 高凯强 期刊:《光学与光电技术》 2019年第04期
电力通信光传输网业务的路由规划存在业务重要度分布不均衡问题,导致部分链路业务重要度负载过高,造成风险过度集中。提出将风险集中度作为网络整体安全性的一个评价指标,并提出一种利用Q Learning的业务路由规划方法,该方法考虑链路容量以及业务重要度的分布情况,实现了业务重要度配置的均衡化,避免风险过度集中的问题。与传统的最短路径方法相比,该方案同时考虑多种约束条件,能够有效满足电力通信业务传输需求,为电力通信网络业...
作者:柳杨; 王博文; 韩建晖; 孙英 期刊:《河北工业大学学报》 2018年第01期
为了在传统场景分类器基础上进一步提高场景识别准确率,提出了一种采用Q学习(Q-leaming)实现室内场景主动识别的算法.该算法采用极限学习机(Extreme Leaming Machine,ELM)与反向传播梯度下降相结合的方式近似Q-leaming值函数的神经网络.算法基于Q-learning动态地学习场景识别率最高的机器人朝向角,使机器人能够自主获取多次更为可靠的传感器信息并将对应识别结果融合,进而提高场景识别准确率.将算法应用在移动机器人场景识别中进行...
作者:王晓华; 吴枝娥; 张蕾 期刊:《西安工程大学学报》 2017年第05期
为解决行为动力学与滚动窗口法的全局路径不是最优的问题,提出在线的基于强化学习的行为动力学与滚动窗口路径规划方法.应用Q学习优化行为动力学模型参数以提高其性能;行为动力学引导Q学习的搜索过程,提高学习效率;每一轮强化学习的动作选择知识随着Q表更新的同时逐渐修正,对后面的学习过程进行优化.仿真实验表明,该方法使得Q学习效率有明显提高,且机器人在线规划出优化平滑的路径.
作者:江涛; 许洪华; 徐驰; 顾玲丽 期刊:《工业控制计算机》 2019年第03期
针对公共景区中传统的人流导向方法存在诱导效果差、客流管控难的问题,将遗传算法和强化学习中经典的Q学习方法相结合,提出一种基于强化学习的遗传算法——RLGA。对游客旅游路线进行建模,实现对交通拥挤度和行程时间的全面考虑。结合Q学习方法,动态调节交叉、变异概率,摆脱对人为设定等主观经验的依赖,实现遗传算法算子从人工决策到智能化自适应决策的转变,在路由信息中挖掘出并优化出一条高性能路径。将所提出的RLGA与传统GA方法...
作者:柏茂羽; 丁勇; 胡忠旺 期刊:《电光与控制》 2018年第04期
针对一般WSN多目标协同跟踪研究中优化目标单一的缺点,提出了一种基于Q学习的多目标耦合协同任务分配算法。该算法提出了合簇的方法以解决多目标耦合情形的网络任务分配竞争冲突问题,首先,采用Q学习方法选取多目标相遇阶段的最优合簇时机,同时拟定合适的Q学习函数和回报函数,得出目标并行阶段最优簇首切换方案;然后,在保证剩余能量的前提下,利用设计的信息效用函数和动态最小簇成员数目给出不同阶段最优簇首及簇成员的选择...
作者:朱振国; 赵凯旋; 刘民康 期刊:《计算机系统应用》 2018年第10期
针对在数据挖掘过程中存在的维度灾难和特征冗余问题,本文在传统特征选择方法的基础上结合强化学习中Q学习方法,提出基于强化学习的特征选择算法,智能体Agent通过训练学习后自主决策得到特征子集.实验结果表明,本文提出的算法能有效的减少特征数量并有较高的分类性能.
作者:张淑军; 孟庆春; 吴槟; 费云瑞 期刊:《控制与决策》 2005年第05期
寻线导航是移动机器人寻航方式之一,为使机器人沿地面标志线自主运动,并能在适时离线执行任务后自动返航,提出一种具有学习功能的智能寻线导航与策略控制方法以及系统模型,并将其应用于自行开发研制的导医机器人中.基于调制光检测原理,通过状态评判网络对多传感器信息进行融合,通过Q学习方法获得离线走失后的最优控制策略,实现了机器人在各种复杂未知环境下稳定、可靠地工作.实验结果表明,该方法可以有效地提高机器人的适应性和智...
作者:张佳立; 尼俊红 期刊:《南京邮电大学学报·自然科学版》 2018年第02期
为实现智能配电通信业务在异构无线网中的安全、高效传输,根据配电网通信业务的特性,文中提出了一种基于Q学习的异构无线网络选择算法。算法将业务类型和网络可用带宽作为Q学习的状态,并将接入后网络提供的传输带宽和安全性作为回报函数。对比了只考虑业务传输带宽需求和同时考虑业务带宽和安全性两种需求的Q学习算法,仿真结果表明,同时考虑带宽和安全性两种需求的Q学习算法在减少业务阻塞率和满足不同业务安全性需求方面有很好的...
作者:苏治宝; 陆际联; 童亮 期刊:《北京理工大学学报》 2004年第05期
提出一种在连续未知环境中实现多移动机器人协作围捕移动目标的整体方案.围捕包括包围目标和靠近目标,包围目标行为由强化学习算法实现.用状态聚类减小状态空间,利用Q学习算法获得Q值表,根据学习后的Q值表选择动作.对各种行为的输出进行加权求和获得综合行为,实现对移动目标的围捕.仿真实验获得了在不同条件下的围捕结果.结果表明,环境、hunter与prey的速度关系以及prey的逃跑策略对围捕效果都有影响.
作者:马学森; 朱建; 谈杰; 唐昊; 周江涛 期刊:《电子测量与仪器学报》 2019年第05期
针对最短路径问题中Q学习算法的初始搜索空间大、后期收敛不稳定的缺陷,提出多头绒泡菌预处理的改进Q学习算法(PPA-Q)。该算法引入网络预处理过程和自适应概率选择模型,利用多头绒泡菌进行网络预处理,减少算法前期的无用探索空间,再通过改进的模拟退火算法实现自适应概率选择模型,加强算法对优质路径的探索程度,增加算法初期解的多样性,同时在算法后期稳定逼近最优路径且不振荡。仿真结果表明,PPA-Q算法收敛到最优路径成功率为100%...
作者:刘芬; 隋天宇; 王叶群 期刊:《计算机与数字工程》 2019年第02期
采用Q学习可以有效保证Ad Hoc网络的可靠性,该文将启发Q学习算法应用在备用多径按需路由协议的路由寻找中,融合传统Q学习算法根据网络状态适当的调整路由周期寿命,提高路由对动态变化的业务分布的自适应性。建立NS3网络模型对无线网络的时延、吞吐量及开销等主要性能指标进行理论分析,研究结果表明:优化后的路由协议更加适用于状态多变的移动Ad Hoc网络。
作者:李旻朔; 姚明海 期刊:《计算机科学》 2018年第B11期
强化学习通过与环境的交互来学习行为策略。强化学习方法是在线的增量学习,易于实现。文中提出了基于函数近似的强化学习算法,并将其用于自适应交通信号灯控制。基于表格的强化学习需要完全的状态表征,随着车道数和路口数的增加,计算复杂度呈指数增长,即使中小规模的交通网络也很难实现,从而不能应用于实际的交通信号灯控制。因此文中使用基于特征的状态表征来有效地解决维数灾难问题;通过简便的方法获取车流的拥塞等级以及红灯的...
作者:王倩; 聂秀山; 耿蕾蕾; 尹义龙 期刊:《南京大学学报·自然科学》 2018年第06期
D2D(Device to Device)通信可实现距离相近的用户设备直接通信,有效地提升系统的吞吐量,获得高频谱效率和能量效率,但D2D通信共享蜂窝网络频谱资源时,会造成蜂窝网络与D2D链路严重的层间干扰.为减少层间干扰带来的影响,提出一种基于Q学习的联合资源分配与功率控制算法.从Q学习的角度来构建数学模型,将蜂窝网络中的多个D2D用户对视为多智能体学习者,利用历史状态(历史吞吐量和功率值),不需要精确的信道状态信息(Channel State Infor...
作者:韩晨; 牛英滔 期刊:《计算机工程》 2019年第05期
针对智能干扰威胁下的跨层抗干扰通信问题,提出一种基于分层Q学习的联合抗干扰学习算法。根据用户与干扰机之间的路由信道选择问题构建分层Stackelberg博弈模型,干扰机选择最佳干扰信道实施干扰,用户与干扰机进行路由信道博弈,选择最佳路由及信道实现通信。仿真结果表明,与固定路由-随机信道选择算法、随机路由-最佳信道选择算法和随机路由-随机信道选择算法相比,该算法具有更好的抗干扰性能。
作者:吴如亮; 王子磊; 奚宏生 期刊:《计算机工程》 2018年第11期
在多服务器场景下,基于HTTP的动态自适应流媒体在传输过程中,由于用户请求的高度动态性及多服务器传输带宽的差异性,客户端获取的视频质量波动较频繁,影响到用户体验质量。针对上述问题,提出一种基于软件定义网络的视频分片请求调度算法。将多个分片组成一个视频块,利用分配策略把这多个分片分配至多个服务器,实现同一视频块内视频分片的码率同步,并使分片有序下载。同时,客户端算法采用Q学习方法,根据不同的环境状态决策出相应的...
作者:徐志雄; 曹雷; 陈希亮 期刊:《计算机工程与应用》 2018年第08期
对标准的强化学习进行改进,通过引入动机层,来引入先验知识,加快学习速度。策略迭代选择上,通过采用“同策略”迭代的Sarsa学习算法,代替传统的“异策略”Q学习算法。提出了基于多动机引导的Sarsa学习(MMSarsa)算法,分别和Q学习算法、Sarsa学习算法在坦克对战仿真问题上进行了三种算法的对比实验。实验结果表明,基于多动机引导的Sarsa学习算法收敛速度快且学习效率高。