[CL]《Reasoning-IntensiveRegression》DTc

爱生活爱珂珂 2025-09-02 06:31:20

[CL]《Reasoning-Intensive Regression》D Tchuindjo, O Khattab [MIT] (2025)

推理密集型回归（RiR）揭示了大语言模型（LLMs）在精确数值预测与深度序列推理之间的矛盾，提出了突破现有限制的创新方案。

• RiR任务区别于传统语言回归，要求模型对每条文本进行逐步推理，涉及数学错误检测、检索增强生成（RAG）对比及作文评分三大典型场景，体现了推理深度与数值精度的双重挑战。

• 标准微调Transformer编码器往往陷入预测均值陷阱，表现出极低的CCC（如NeoBERT数学错误检测CCC仅0.01），难以捕捉推理逻辑。

• 直接Prompting大语言模型虽能展现较好推理能力（如GPT-5详细提示数学错误检测CCC达0.69），却因输出数值量化严重（高达86.5%的预测结果集中于整数或0.5倍数）导致回归精度不足。

• 创新方法MENTAT结合了批量错误驱动的提示演化与多次生成结果的神经网络聚合，显著提升了数值预测的准确度和排序一致性，在有限数据（100-500样本）下对所有RiR任务均实现最高CCC和最低NMSE。

• MENTAT第一阶段通过LLM自我反思批量错误，迭代优化提示语，第二阶段利用多次独立生成的预测结果训练MLP进行集成，兼具推理深度和数值精度。

• 研究揭示高级推理模型在简单任务（如RAG对比、作文评分）中可能因“过度思考”反而表现逊色，提示任务复杂度与模型推理能力应匹配。

• RiR评估指标强调CCC以兼顾预测的相关性与一致性，弥补传统NMSE对极端值预测回避的偏差。

• 该工作为轻量级、低样本、可扩展的推理密集型回归提供了实践基线与方法框架，强调融合推理能力与数值回归的必要性，指明未来研究方向。

心得：

1. 纯提示工程与传统微调各自存在局限，融合两者优势是解决推理与精度矛盾的关键。

2. 批量错误分析与多次输出聚合提升了模型对复杂推理任务的适应性和稳定性。

3. 不同任务的推理深度需求差异显著，模型设计需针对具体任务灵活调整推理策略。

详情🔗arxiv.org/abs/2508.21762

大语言模型推理密集型回归机器学习自然语言处理模型优化

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

[人人能懂] 从成本路由到自适应学习（扫码收听）

2

多模态 RAG 技术在 PDF 处理上实现突破，无需 OCR、布局检测或分块，开

3

Claude Code 快捷指令与配置全览，助力开发者高效使用强大工具：• ⌨️

4

科学大语言模型（Sci-LLM）正引领科学研究范式变革，其核心驱动力来自对多模态

5

[LG]《QR-LoRA: QR-Based Low-Rank Adaptati

6

[CL]《Reasoning-Intensive Regression》D Tc

7

[LG]《CALM: A Framework for Continuous, A

8

[LG]《Adaptive LLM Routing under Budget C

9

早！[太阳] 早安

10

谷歌前沿图像生成模型 Gemini-2.5-Flash-Image（Nano B

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

光刻机禁售，我忍了。芯片技术封锁，我也忍了。但全国首台国产电子束光刻机在杭州

2

太tm解气了，当华为pura80ultra更新后，麒麟9020出现的那一刻，心

3

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

4

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

5

华为的前三号员工1.任正非（工号001）华为创始人，1987年集资2.1万

6

追觅官宣造车追觅：要造最快的车！这么卷的汽车市场还有选手入场，给追觅点赞[爱你

7

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

8

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

9

实锤了！中国不买美国芯片，H20就暂停生产了，现在黄仁勋更加睡不着觉了，由于这次

10

9月骁龙峰会，六款国产旗舰新机扎堆硬刚苹果17：荣耀Magic8系列、iQ

科技最新文章

1

AI眼镜真要火了？歌尔已经悄悄接单到手软。别看它平时低调，其实就是全球大

2

一颗芯片，把安卓圈的脸打肿了。高通甩出8Gen5和EliteGen5，一

3

不可思议！荣耀GT再度出现“捡漏神价”，1200多就能拿下搭载骁龙8Gen3的性

4

iPhone17国行预计涨价500元自适应刷新率的OLED屏幕，高级质感的超薄

5

记者问：“中美AI差距到底有多大？”梁文峰毫不避讳一针见血地回答：“表面上中国A

6

16+512G版本选谁？荣耀GTPro和Magic7“掐架”啦🤼宝子们，

7

外媒疑惑不解：2nm芯片基本上没人买了！老实说，7纳米就够用了，还便宜，谁会去

8

iOS双版本推送将至！按照以往惯例推测，苹果将于北京时间9月10日

9

照着下图买大电池手机就不会错了。8300mAh的荣耀X70坐稳头把交椅！据小道

10

没人发现吗？中国拒绝了英伟达的H20，于是英伟达的H20就停产了，这说明H20是