Nathan Lambert (《基于人类反馈的强化学习》一书作者,一直在跟踪各类开源模型进展)写了一篇对 Kimi K2 Thinking 的评论文章。翻译搬运一下
------------------
首先,恭喜“中国AI六小虎”之一的月之暗面 (Moonshot AI) 团队,发布了 Kimi K2 Thinking 这么棒的模型。近来,对我而言,最容易被忽视也最鼓舞人心的事情之一,就是有如此多的人正在非常迅速地学会如何训练出色的 AI 模型。训练顶尖 AI 模型并将其推向国际的能力,将在全球范围内普及。随着人们越来越多地使用 AI,谁能获得推理所需的(算力)供给(或许还有训练绝对前沿规模模型的昂贵能力),谁就将掌握关键的限制因素。
K2 Thinking 听起来会是一款用着很有爽感的模型,因为早期报告称,它通过扩展思维的强化学习训练,保留了其独特的风格和写作质量。他们发布了许多评估分数,其中一个亮点是,在某些基准测试(如 Humanity’s Last Exam 或 BrowseComp)上,它们击败了顶尖的闭源模型。当然,在许多其他评估中,GPT 5 或 Claude Sonnet 4.5 仍然领先于它们。有传言说 Gemini 3 很快就要发布了(就像那个一直“即将发布”的 DeepSeek V4 一样),所以目前整个行业的期望值都很高。
一句话总结: 这是一个推理型 MoE 模型,总参数量 1T,激活参数 32B,上下文长度 256K,在智能体工具使用中具有交错思维能力,基准测试得分和主观体验(vibe tests)均表现强劲。
这次发布的核心反响是,人们认为这是开源模型在性能上最接近闭源(模型)性能前沿的一次,类似于 DeepSeek R1 对 o1 的快速跟进。这在很大程度上是事实,但我们正进入一个模糊地带,因为模型之间的比较变得更加困难。需要明确的是,这一切都对开源模型有利。我听说 Kimi 的服务器已经被挤爆了,稍后会详细谈谈这一点。
关于这次发布,我主要在思考以下几点:
1. 开源模型的发布速度更快。
闭源模型在某些方面仍然领先于开源模型,但用户实际能用到的东西情况更复杂,这对闭源实验室构成了巨大挑战。中国的实验室发布模型的速度绝对快得多。当(技术)进展速度很快时,能够更早地推出模型会使其看起来更强。这是一个简单的事实,但我猜 Anthropic 推出模型的时间最长(有时长达数月),而 OpenAI 则处于中间位置。这是一个巨大的优势,尤其是在(市场)沟通方面。
我估测,在原始性能上,这个(开源与闭源的)差距大约是几个月——如果你非要我给个具体数字(“拿枪指着我的头”),我会说是 4-6 个月以上——但问题是这些(更强的闭源)模型并未公开发布,那么它们(的领先)又有多大意义呢?
2. 先攻克关键基准,再优化用户行为。
中国的实验室正在(在关键基准测试上)迅速追赶,并且表现非常强劲。这些模型也可以有很好的“品味”(比如 DeepSeek, Kimi),但是,(闭源)实验室针对常见用户行为拥有一系列长尾的内部基准,而中国的实验室在这些方面缺乏反馈循环。中国的公司将开始获得这些(反馈),但这些“无形资产”对用户留存至关重要。
在过去的一年多里,我们看到 Qwen(通义千问)正在经历这个转变。他们最初以“刷榜”(benchmaxing)闻名,但现在它们是真正出色的模型(而且恰好也有着疯狂的基准分数)。
沿着这个思路,K2 Thinking 模型在后训练 (post-training) 阶段就原生支持 4bit 精度,使其更能胜任真实的(模型)服务 (serving) 任务(他们这样做很可能是为了让长序列的强化学习后训练在规模化时更有效率):
----“为了克服这一挑战,我们在后训练阶段采用了量化感知训练 (QAT),对 MoE 组件应用了 INT4 权重量化。这使得 K2 Thinking 能够支持原生 INT4 推理,生成速度提升约 2 倍,同时达到 SOTA(顶尖)性能。所有基准测试结果都是在 INT4 精度下报告的。”
他们的基准测试比较是在即将被服务的(精度)模式下进行的,这很棒。这才是公平的方式。
3. 中国的崛起。
在今年年初,大多数浅度关注 AI 的人可能一个中国 AI 实验室都不知道。而现在,到 2025 年底,我敢说 DeepSeek(深度求索)、Qwen(通义千问)和 Kimi(月之暗面)都已成为(业内)家喻户晓的名字。它们都有各自的高光发布时刻和不同的优势。重要的是,这个名单还会不断加长。越来越多前沿技术的“心智份额”(mindshare) 正在向中国转移。我预计像 Z.ai(智谱)、美团或 Ant Ling等公司明年有可能加入这个行列。对于其中一些发布了顶级基准模型的实验室来说,他们实际上是在 DeepSeek 之后才开始做基础模型。许多中国公司仅用了 6 个月就在性能上大致追赶上了开源前沿,现在的问题是,他们是否能在一个真正有用户需求的前沿细分领域提供独特价值。
4. 多次工具调用中的“交错思维”。
人们谈论此次发布时,提到 Kimi K2 Thinking 在回答一个查询时会使用“数百次工具调用”。根据博文:
----“Kimi K2 Thinking 可以连续执行多达 200-300 次的工具调用而无需人工干预,通过数百个步骤的连贯推理来解决复杂问题。”
这可能是第一个具备这种多次工具调用能力的开源模型,但这种能力在 o3、Grok 4 等(闭源)模型中已或多或少成为标配。这种行为在强化学习 (RL) 训练中会自然涌现,尤其是当模型需要搜索以获取正确答案时。所以这在技术上算不上什么大事,但在开源模型中看到它非常有趣,而托管它(服务)提供商们(在工具使用方面已经因托管开源权重而头疼了)将需要非常努力才能精确地支持它。我希望(市场)有足够的用户需求,来帮助这个行业在服务(hosting)开源工具使用模型方面走向成熟。
“交错思维”(Interleaved thinking) 则略有不同,它指模型在工具使用之间会插入“思考” tokens。Claude 是这方面最知名的。11 月 3 日发布的 MiniMax M2 也具备了这一点。
5. 对美国闭源实验室的压力。
显然,开源模型的激增应该让那些闭源实验室“捏一把汗”。他们需要应对严重的定价压力和(市场)期望管理。他们用来讲述“为何自家服务更好”的差异化和“故事”,需要迅速进化,不能再仅仅依赖于我们现有的这些基准测试分数。在我初夏的那篇《关于下一步的几点思考》的文章中,我曾暗示过这一点:
----“这将需要一种我们不熟悉的、不同形式的信息传递。更多的发布将看起来像 Anthropic 的 Claude 4 那样:基准测试的提升微乎其微,但真实世界中的(应用)收益却是一大步。这将需要更精细的辨别力才能理解进展的步伐是否仍在继续,尤其是当 AI 评论家们将抓住评估(分数)停滞不前的机会,声称 AI 已经不灵了。”
现有的分销渠道、产品和(模型)服务能力是否足以维持美国所有顶尖 AI 公司的稳定价值?我个人认为他们是安全的,但这些中国的模型和公司将从不断增长的 AI 蛋糕中切走更大的份额。这在收入上可能远不及(美国公司的)大部分,但它可能在“心智份额”上占多数,尤其是在国际市场上。