交大字节攻克强化学习最慢一环交大字节让大模型RL训练速度飙升2.6倍强化学习的训

量子位看科技 2025-09-14 00:18:22

交大字节攻克强化学习最慢一环交大字节让大模型RL训练速度飙升2.6倍

强化学习的训练效率,实在是太低了!

随着DeepSeek、GPT-4o、Gemini等模型的激烈角逐,大模型“深度思考”能力的背后,强化学习(RL)无疑是那把最关键的密钥。

然而,这场竞赛的背后,一个巨大的瓶颈正悄然限制着所有玩家的速度——相较于预训练和推理,RL训练更像一个效率低下的“手工作坊”,投入巨大但产出缓慢。

其中,占据超过80%时间的Rollout(响应生成)阶段,由于其内存带宽限制和自回归特性,成为了整个AI基础设施中公认的阿喀琉斯之踵。

如何攻克这块AI基建的最后高地?现在,上海交通大学与字节跳动研究团队给出了一个全新的答案。

该团队联手推出的RhymeRL,从一个被忽视的现象入手,巧妙地将历史数据变废为宝,在不牺牲精度的前提下,将RL训练吞吐量提升了2.6倍。

0 阅读:2
量子位看科技

量子位看科技

感谢大家的关注