一文介绍八种主流开源模型架构开源模型架构设计一览从GPT到MoE，知名科技博主S

一文介绍八种主流开源模型架构开源模型架构设计一览

从GPT到MoE，知名科技博主Sebastian Raschka对当前顶尖开源模型的架构设计进行了总结。【图1】

在这篇博客当中，Sebastian没有讨论常见的基准测试表现或训练算法，把目光聚焦在开源模型的核心架构创新。

文章非常全面，量子位节选了部分亮点，欢迎观看：

一、DeepSeek V3/R1

DeepSeek V3具有两项革新的架构设计：多头潜在注意力（MLA）与混合专家（MoE）系统，显著提升了模型计算效能。

- 多头潜在注意力（MLA）

与GQA（分组查询注意力）共享键值头的做法不同，MLA会将键值张量压缩至低维空间后再存入KV缓存。

在推理过程中，这些压缩后的张量会先通过矩阵乘运算还原至原始维度，再参与注意力计算。虽然这会增加一次额外的矩阵乘法操作，但显著降低了内存占用。【图2】

- 混合专家（MoE）

混合专家的核心设计理念在于，将Transformer模块中的每个前馈网络替换为多个专家层。【图3】

V3每个MoE模块包含256个专家，但在实际推理时，每次仅激活9个专家。V3采用始终激活的共享专家机制。该专家会对每个输入token都进行处理。【图4】

二、Gemma 3

- 滑动窗口注意力机制

该机制本质是一种局部注意力：与传统全局自注意力（每个序列元素可关注所有其他元素）不同，滑动窗口注意力将上下文范围限制在当前查询位置周边区域。【图5】

Gemma 3采用每5层滑动窗口注意力配1层全局注意力的比例，并将窗口大小从4096压缩至1024，使模型更专注于高效的区域化计算。【图6】

- 归一化层布局设计

Gemma 3在其分组查询注意力模块中同时采用了前置归一化（Pre-Norm）和后置归一化（Post-Norm）的RMSNorm方案。【图7】

从技术角度看，这种混合布局兼具两种归一化的优势：前置归一化有利于训练稳定性，后置归一化则保留原始Transformer的特性。

三、Llama 4

Llama 4 Maverick同样采用了MoE架构，其余部分则延续了相对标准的设计范式，这一点与DeepSeek-V3高度相似。【图8】

Maverick使用分组查询注意力，MoE配置比较传统，专家数量较少但规模更大（2个活跃专家，每个专家8192维隐藏层）。

相比DeepSeek几乎在每个Transformer块（前3层除外）都集成了MoE层，Llama 4每隔一个Transformer块轮换使用MoE层和标准稠密模块。

四、Qwen3

- Qwen3 (Dense)

相比Llama 3 1B，Qwen3采用更深层架构，Transformer层数更多；而Llama 3则采用更宽架构，注意力头数更多。【图9】

Qwen3整体架构更精简，隐藏层维度更小、注意力头数更少，内存需求更低。但由于Transformer块数量更多，Qwen3的运行时延更高。

- Qwen3 (MoE)

DeepSeek-V3的激活参数几乎是Qwen3的两倍（37B）。从图中可以看出，DeepSeek-V3和Qwen3 235B-A22B的架构非常相似。但值得注意的是，Qwen3没有使用共享专家机制。【图10】

五、Kimi 2

该模型采用了相对较新的Muon优化器变体而非AdamW，这使得训练损失曲线非常漂亮。【图11】

Kimi 2采用的正是本文开头介绍过的DeepSeek-V3架构，只是规模更大。主要区别在于：1. MoE模块中使用了更多专家；2. 多头潜在注意力（MLA）模块中的注意力头数有所减少。【图12】

这种架构微调既保留了原始设计的优势，又通过专家数量扩展提升了模型容量。

受限于篇幅，仅摘录部分内容，点击链接可查看完整博客：

0 阅读：0