AI的竞争力在后训练一文了解后训练
当全球的目光还在聚焦基座模型的参数竞赛时,一场更为深刻的变革正在悄然发生——后训练(Post-Training)。
产业早已达成的共识是:大模型后训练不再是简单的模型优化,而是AI落地产业的必经之路。这意味着,企业需要将通用的基座模型,训练成深度理解自身业务、具备领域知识、并能执行复杂策略的“专属智能引擎”。
而后训练技术本身也正在经历着日新月异的技术变迁。
Pokee.ai创始人、Meta前应用强化学习部门负责人朱哲清在2025云栖大会《大模型后训练:打造企业专属智能引擎》论坛上清晰地勾勒了这条演进路径——最初,行业普遍采用SFT(Supervised Fine-Tuning,监督微调)的方式,让模型学习特定领域的知识和对话风格。
然而,简单的监督学习却无法教会模型进行复杂的价值判断和策略选择——这恰恰是企业真实业务场景中的核心需求。
于是,技术的焦点从“模仿”转向“对齐”,从监督微调(SFT)进化至以目标为导向的强化学习(RL)范式。
而在强化学习的实践路径上,产业界又经历了一场从“依赖人力”到“追求自动化”的深刻迭代:从早期的RLHF(基于人类反馈的强化学习),到突破性的RLVR(基于可验证反馈的强化学习),再到前沿的“自然语言奖励”。
从后训练技术演进路径中,我们也能清晰看到企业“之所以要做后训练”的答案:通过对模型的特定能力增强,解决商业世界的复杂任务,构建通用模型无法达到的竞争壁垒。