关键词:强化学习 对称多智能体强化学习 策略估计
摘要:针对通信资源调度场景下的多智能体强化学习(MARL)问题,提出了对称MARL问题以及三类对称性的定义和条件,并定义了策略融合和策略误差;针对强对称MARL问题,定义了三类评价指标,并对策略估计误差进行分析,提出了强对称MARL问题的策略误差定理及推论.针对无线通信的接入控制问题建立了MARL问题,仿真结果验证了强对称MARL问题策略估计误差的特性.结果表明,可以使用低复杂度的MARL子问题对高复杂度的强对称MARL问题进行策略估计,且策略估计误差和对网络性能的影响均较小.
北京邮电大学学报杂志要求:
{1}请特别注意:著录参考文献出处时,期刊引文须注明的是引文所在具体页码,而非该文献在期刊中的起讫页码;报纸引文必须在日期之后注明文献所在的版次。
{2}稿件的作者署名、保密和是否侵权等问题均由作者自行负责。
{3}正文应论点明确、论据充分、文字简炼、通顺、层次清楚。
{4}结论之后,应有致谢部分,对国家科学基金、资助者或支持者、提供指导和帮助者、给予转载和引用权的资料、图片、文献、研究思想和设想的所有者,表示感谢。
{5}关键词每篇文章可选用3~5个能反映文章主题概念的词、词组或术语。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社