[CL]《Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels》Z Cen, H Chen, S Wang, Z Liu... [Salesforce AI Research] (2025)
突破强化学习数据瓶颈,Webscale-RL实现预训练级别规模
大型语言模型(LLM)虽靠模仿学习取得成功,却存在训练-生成差异和推理能力受限的问题。强化学习(RL)能更高效地提升模型能力,但受限于RL数据集规模小、领域狭窄,难以发挥潜力。
最新论文《Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels》提出了Webscale-RL数据流水线,自动将海量预训练文档转化为120万条覆盖9+领域的多样化、可验证问答对,极大扩充RL训练数据规模与多样性。实验表明,基于Webscale-RL数据训练的模型在多项基准测试中超越持续预训练和先进数据优化方法,且数据效率提升100倍,展现出RL训练的高效与强大潜力。
核心创新:
1️⃣ 自动化数据过滤、领域分类与多角色视角赋予,确保问答对质量和多样性
2️⃣ 从预训练语料库直接转换问答对,突破传统人工标注和小规模数据限制
3️⃣ 实验验证RL训练不仅提升推理和知识能力,还在数据使用效率上远超模仿学习
未来方向包括进一步丰富代码等弱覆盖领域数据,及优化奖励模型以降低RL训练成本。Webscale-RL为大规模RL训练铺平道路,助力打造更强大、通用的语言智能。
论文链接:arxiv.org/abs/2510.06499
强化学习 大规模预训练 语言模型 数据流水线 人工智能