基于逆向强化学习的舰载机甲板调度优化方案生成方法

李耀宇 朱一凡 杨峰 贾全 国防科技大学信息系统与管理学院 湖南长沙410073

关键词:逆向强化学习 强化学习 舰载机甲板调度 优化方案生成 

摘要:针对计算机辅助指挥调度舰载机甲板作业的决策过程无法脱离人参与这一特点,引入基于逆向学习的强化学习方法,将指挥员或专家的演示作为学习对象,通过分析舰载机的甲板活动,建立舰载机甲板调度的马尔可夫决策模型(MDP)框架;经线性近似,采用逆向学习方法计算得到回报函数,从而能够通过强化学习方法得到智能优化策略,生成舰载机甲板调度方案。经仿真实验验证,本文所提方法能够较好地学习专家演示,结果符合调度方案优化需求,为形成辅助决策提供了基础。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

国防科技大学学报

北大期刊
1-3个月下单

关注 11人评论|0人关注
相关期刊
服务与支付