美团提出多模态推理新范式RL与SFT结合提升大模型推理能力多模态推理，也可以讲究

量子位看科技 2025-07-21 17:40:01

美团提出多模态推理新范式RL与SFT结合提升大模型推理能力

多模态推理，也可以讲究“因材施教”？

来自美团的研究者们提出Metis-RISE框架（RL Incentivizes and SFT Enhances），探索了这一方法。

他们提出了一个混合训练框架，将RL激励和SFT增强以非传统顺序结合，更有效地提升多模态大语言模型（MLLMs）的推理能力。

简单来说，就是先用强化学习（RL）放任模型大胆去探索，激发潜能，再通过监督微调（SFT）针对性补齐短板，来突破多模态推理瓶颈。

最终产生7B和72B参数的MLLM，2个模型在OpenCompass多模态推理榜单上取得了优异成绩，其中72B参数模型平均得分在整体排名中位列第四，验证了Metis-RISE的可扩展性和有效性。

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

中科院阿里手术刀式去噪预训练数据细化新范式在噪声污染严重影响预训练数据的质量时，

2

OpenAI抢发IMO金牌引争议IMO怒斥OpenAI自封夺金OpenAI声称新

3

一文介绍八种主流开源模型架构开源模型架构设计一览从GPT到MoE，知名科技博主S

4

刘强东连投3家具身智能京东美团战火烧到科技领域王兴之后，刘强东也在具身智能领域发

5

美团提出多模态推理新范式RL与SFT结合提升大模型推理能力多模态推理，也可以讲究

6

机器人像人一样做决策机器人自主思考决策框架浙大与vivo团队推出了机器人自主决策

7

独立思考提示词第一性原理提示词分享一个用第一性原理，训练自己独立思考的提示词。提

8

Qwen成绩高是提前看过题Qwen2.5数据污染数学能力，全靠记忆？一篇来自复旦

9

Meta超级智能实验室44人名单超级智能实验室近一半成员为华人传疯了！Meta超

10

AI智能体三大关键AI智能体三大隐患过去一年，工程师Utkarsh Kanwat

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

【星链全球大断网！马斯克道歉：确保类似情况不再发生】据媒体报道，SpaceX卫星

2

本月早些时候，微软宣布裁员9000人，引发了外界对公司未来战略与员工士气的广

3

2025下半年新机打架谁是你的菜？

4

这4款千元机谁最有性价比，一目了然。与友商竞品相比，才显得荣耀X70实属良心

5

论手感的话，个人感觉还得是钛金属，大家觉得呢？[思考]

6

25年公认最强拍照手机，有你在用的吗。

7

什么手机续航优化在大电池面前都是渣渣灰，以前8小时的亮屏属于长续航，现在也是垫底

8

华为这手机价格，让我选择不会了。想买个p80pro的本来，可是看到p7

9

荣耀再一次掀桌子，大家都别玩了荣耀X70只要1399顶配版是12G+512G

10

余总亲自官宣pura80标准版售价，12+256版本4699元，12+512版

科技最新文章

1

首款可折叠iPhone屏幕尺寸曝光说实话我不是很期待果子的折叠屏，因为我并不觉得

2

新版本的iOS26变好看很多了！今天iOS26公测版来了，我立马就给小1

3

荣耀迭代新机曝光：天玑9500小屏旗舰＋超大电池中端机近日，据知名数码博主“

4

眼馋iOS26液态玻璃效果的朋友其实可以尝试升级今天刚刚推送的Public

5

【星链全球大断网！马斯克道歉：确保类似情况不再发生】据媒体报道，SpaceX卫星

6

曝vivoX300Pro或将成为今年下半年“最值得蹲”的超大杯旗舰！近日

7

本月早些时候，微软宣布裁员9000人，引发了外界对公司未来战略与员工士气的广

8

2025荣耀已发布新品汇总：1.荣耀Power8000mAh+80

9

炸场！2025下半年新机王炸配置，等等党直接赢麻！iPhone17

10

pura80标准版这价格就亲民很多了，而且我觉得标准版的后置摄像头模组比pro版