[LG]《Imagined Autocurricula》A H. Güzel, M T Jackson, J L Liesen, T Rocktäschel... [University College London AI Centre & University of Oxford] (2025)
训练通用智能体的关键突破:Imagined Autocurricula(iMac)融合扩散式世界模型与自动课程学习,实现了基于离线数据的高效泛化能力。
• 利用多样离线数据训练扩散世界模型,生成丰富多变的“想象”环境供智能体训练,无需额外真实交互。
• 结合Prioritized Level Replay(PLR)策略,动态优先选择最具学习潜力的初始状态和训练难度,形成自适应自动课程,推动智能体挑战更复杂任务。
• 随机想象轨迹长度增加训练多样性,防止策略过拟合固定时长,提升长期规划能力。
• 在五个Procgen程序生成环境中,iMac较最优离线强化学习基线提升17%-48%,较固定时长世界模型提升高达56%,显著增强泛化性能。
• 自然涌现的课程机制无需手动设计或环境内置知识,适用任何可训练世界模型的环境,极大拓宽了自动课程学习的应用范围。
• 体系架构采用2D U-Net扩散网络,结合LSTM与卷积预测奖励与终止信号,确保视觉细节捕获与部分可观测环境下的长期稳定性。
• 研究揭示,优先基于正向TD误差挑选训练样本,智能体能持续聚焦“边界难度”场景,实现渐进式能力提升与任务适应。
• 计算资源消耗较高,未来方向包括提升效率、强化不确定性估计、自动调参及向连续控制领域扩展。
心得:
1. 结合生成式世界模型与自动课程学习,可突破传统离线RL在多样化任务泛化上的瓶颈,实现零交互高效训练。
2. 随机化训练时长与优先级机制共同作用,助力智能体掌握长时序复杂行为,符合真实世界多变环境需求。
3. 课程自动涌现机制无需人工干预,适配性强,提醒我们设计智能体训练策略时应充分利用数据驱动的动态优先级分配。
了解更多🔗arxiv.org/abs/2509.13341
强化学习世界模型自动课程学习离线强化学习生成模型人工智能