交大字节攻克强化学习最慢一环交大字节让大模型RL训练速度飙升2.6倍强化学习的训

量子位看科技 2025-09-14 00:18:22

交大字节攻克强化学习最慢一环交大字节让大模型RL训练速度飙升2.6倍

强化学习的训练效率，实在是太低了！

随着DeepSeek、GPT-4o、Gemini等模型的激烈角逐，大模型“深度思考”能力的背后，强化学习（RL）无疑是那把最关键的密钥。

然而，这场竞赛的背后，一个巨大的瓶颈正悄然限制着所有玩家的速度——相较于预训练和推理，RL训练更像一个效率低下的“手工作坊”，投入巨大但产出缓慢。

其中，占据超过80%时间的Rollout（响应生成）阶段，由于其内存带宽限制和自回归特性，成为了整个AI基础设施中公认的阿喀琉斯之踵。

如何攻克这块AI基建的最后高地？现在，上海交通大学与字节跳动研究团队给出了一个全新的答案。

该团队联手推出的RhymeRL，从一个被忽视的现象入手，巧妙地将历史数据变废为宝，在不牺牲精度的前提下，将RL训练吞吐量提升了2.6倍。

0 阅读：2

量子位看科技

感谢大家的关注

作者最新文章

1

交大字节攻克强化学习最慢一环交大字节让大模型RL训练速度飙升2.6倍强化学习的训

2

他写哈利波特同人也创办OpenAI哈利波特同人作者预测AI灭世人工智能有99.5

3

前谷歌X团队靠AI电影锁定戛纳AI版皮克斯横空出世全球首家AI原生影视工作室横空

4

华为开源DeepDiver多Agent系统华为Agent系统报告生成可达万字华为

5

Qwen新架构又快又便宜Qwen新模型秒解AIME数学题Qwen下一代模型架构，

6

这种水泥能当电池细菌掺入水泥变成电池丹麦奥胡斯大学，用细菌做了一块“活水泥”。他

7

每张图像都有光学指纹点扩散函数建模方法你知道吗？图像里其实藏着一种“隐形信息”，

8

Claude发布提示词宝典Claude官方提示词指南Claude发布了免费的提示

9

即梦超清画质提示词即梦超清画质隐藏用法有人发现，在即梦生图提示词中加入“.CR2

10

央企怎么做超级智能体对谈中国电信天翼AI超级智能体，央企出手了！中国电信天翼AI

热门分类

科技TOP

1

光刻机禁售，我忍了。芯片技术封锁，我也忍了。但全国首台国产电子束光刻机在杭州

2

太tm解气了，当华为pura80ultra更新后，麒麟9020出现的那一刻，心

3

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

4

翻开王腾过去从业史，在好几家手机品牌都干过，在OPPO从2008年一直到2016

5

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

6

华为的前三号员工1.任正非（工号001）华为创始人，1987年集资2.1万

7

史上最薄iPhoneiPhoneAir现场真机实拍这外观给几分？

8

追觅官宣造车追觅：要造最快的车！这么卷的汽车市场还有选手入场，给追觅点赞[爱你

9

iPhone17，终于亮相。今年的颜色都还不错呀，造型就是跟16基本一样。屏

10

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

科技最新文章

1

国内知道的人不多，但海外已经传开了，美国在AI领域最担心的事还是发生了！阿联酋

2

这就是传说中的小米16ProMax？全新的设计大家喜不喜欢有消息称小米1

3

1000元内选手机，这四款参数对比：荣耀Play10T：1080P+120Hz

4

我现在手上的就是真我即将发布的真我15T。外观大家怎么说？我只能想到一个词汇：R

5

拿到最新电商渠道数据显示，今天华为Matepadmini首销成绩非常可观，仅华

6

定档官宣，荣耀Magic8系列彻底不装了四剑齐发，除了Mini版搭载天玑95

7

本以为5999的iPhone17国补后5499是王炸，但当多多5099拿出来的时

8

据说华为Mate80长这样，辨识度和质感确实在线，今年的苹果17依旧差点意思，明

9

华为Mate80系列手机的曝光科技，整体性能再麒麟9030和鸿蒙6.0的加持下

10

真的穷疯了估计没有像我这样吧这两天工资没到账，刚好卖旧手机来了，翻箱倒柜找半