美团提出多模态推理新范式RL与SFT结合提升大模型推理能力
多模态推理,也可以讲究“因材施教”?
来自美团的研究者们提出Metis-RISE框架(RL Incentivizes and SFT Enhances),探索了这一方法。
他们提出了一个混合训练框架,将RL激励和SFT增强以非传统顺序结合,更有效地提升多模态大语言模型(MLLMs)的推理能力。
简单来说,就是先用强化学习(RL)放任模型大胆去探索,激发潜能,再通过监督微调(SFT)针对性补齐短板,来突破多模态推理瓶颈。
最终产生7B和72B参数的MLLM,2个模型在OpenCompass多模态推理榜单上取得了优异成绩,其中72B参数模型平均得分在整体排名中位列第四,验证了Metis-RISE的可扩展性和有效性。