美团提出多模态推理新范式RL与SFT结合提升大模型推理能力多模态推理,也可以讲究

量子位看科技 2025-07-21 17:40:01

美团提出多模态推理新范式RL与SFT结合提升大模型推理能力

多模态推理,也可以讲究“因材施教”?

来自美团的研究者们提出Metis-RISE框架(RL Incentivizes and SFT Enhances),探索了这一方法。

他们提出了一个混合训练框架,将RL激励和SFT增强以非传统顺序结合,更有效地提升多模态大语言模型(MLLMs)的推理能力。

简单来说,就是先用强化学习(RL)放任模型大胆去探索,激发潜能,再通过监督微调(SFT)针对性补齐短板,来突破多模态推理瓶颈。

最终产生7B和72B参数的MLLM,2个模型在OpenCompass多模态推理榜单上取得了优异成绩,其中72B参数模型平均得分在整体排名中位列第四,验证了Metis-RISE的可扩展性和有效性。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注