LWD——在大规模部署中学习的RL策略框架:结合“分布式隐式价值学习”与“基于QAM的策略提取”,先离线RL预训练,后在线RL微调
本文提出了一种"部署中学习"(Learning While Deploying)框架,通过机器人舰队规模的强化学习来优化通用机器人策略。该方法构建了一个数据闭环:部署的机器人集群产生多样化经验,共享策略聚合这些数据并持续改进,改进后的策略重新部署以收集更高质量的数据。研究团队设计了分布式隐式价值学习(DIVL)方法来处理异质部署数据中的多模态回报分布,并采用基于流的策略提取机制(QAM)实现稳定更新。实验在16台双臂机器人组成的舰队上进行,覆盖8个操作任务,结果显示该方法仅需数小时真实交
v_JULY_v2026-05-03 14:31:51