DeepSeek-V4 把长上下文拆成多条并行通道,用压缩、稀疏选择和局部保真共同控制推理成本。同时面对 1.6T MoE 在 33T tokens 预训练中的稳定性挑战,它在架构、路由、数值精度和训练调度上做了大量工程取舍。本文从结构、稳定性与适用边界三个维度,梳理这些设计背后的判断。
1M Context 的结构与取舍
DeepSeek-V4 的注意力层在多数层里由三条并行通道组成:HCA、CSA 和 SWA。HCA 是全局摘要通道,把长序列按 128 个 token 为一组做重压缩,再对压缩后的全局序列执行 dense attention。1M tokens 压到大约 7812 个条目后,dense attention 的计算量回到一个可管理区间。代价是每个压缩条目要承载 128 个原始 tokens 的信息,精度会明显下降,更适合提供全局语义背景,不适合做高精度定位。
CSA 是稀疏精读通道,先按 4 个 token 压缩,再由 Lightning Indexer 对所有压缩块打分,只保留 top-k 供查询读取。DeepSeek-V4 Pro 里典型的 top-k 是 1024,这意味着查询最终只会读取大约 4096 个 token 等价的信息。读取效率很高,但上限受制于 indexer 的排序质量。如果相关块没有排进 top-k,主注意力就没有机会再看到它。
SWA 是局部保真通道,保留最近 128 tokens 的原始 K/V,不做压缩,直接参与注意力计算。长上下文压缩结构会天然损失最近邻细节,尤其在因果掩码存在时,当前块附近的信息会更敏感。SWA 负责补齐这一段高价值局部信息。
三条通道的分工本身已经反映出一个判断:在 1M 长度下,attention 不能同时兼顾全局覆盖、精确定位和低成本。DeepSeek-V4 选择把这些目标拆开处理。论文里给出的量级很明确:相比 V3.2,V4-Pro 在 1M 下单 token inference FLOPs 降到 27%,KV cache 降到 10%;V4-Flash 分别降到 10% 和 7%。相比 BF16 GQA8 基线,V4 系列的 KV cache 约为 2%。这组收益来自序列维度压缩、K/V sharing、BF16 到 FP8 的缓存降精度,以及 indexer 路径进一步使用 FP4 的多层叠加。
代价同样明确。MRCR 8-needle 曲线显示,在 128K 以内 DeepSeek-V4 Pro 的检索质量仍然处在较高水平;从 256K 往上,精确检索能力开始明显下降;到 1M 时,V4-Pro 的准确率下降到 0.59,V4-Flash 下降到 0.49。这说明 DeepSeek-V4 的 1M Context 适合长文档推理、长轨迹 agent 维护、多文档汇总这类依赖全局背景和局部细节结合的任务,不适合对长序列做严格 needle retrieval,也不适合要求高精度数字、条款、实体定位的场景。
这里还有两个细节值得关注。Attention Sink 让注意力层有机会放弃无效候选项,对于 sparse attention 来说,当 top-k 里没有真正相关块时,sink 可以减少错误信号扩散。partial RoPE 只作用于部分维度,并在输出侧加了 inverse RoPE 处理,用来缓解 K=V sharing 下的位置信息混叠问题。这类处理没有改变核心成本结构,但对长上下文质量是必要补充。
训练稳定性的工程挑战
DeepSeek-V4 技术报告里最值得关注的部分,是它对训练稳定性问题的直接描述。在 1.6T MoE、33T tokens、FP8/FP4 和大规模 Expert Parallelism 同时存在的条件下,loss spike 不再是偶发抖动,它会反复出现,回滚 checkpoint 也不能从根本上解决问题。
技术报告和外部分析都指向同一个现象:MoE 路由和 expert outlier 之间会形成正反馈回路。某些 experts 开始产生异常大的 activation 或 gradient,router 把更多相似 tokens 继续送进这些 experts,experts 的异常进一步扩大,最终触发 loss spike,严重时会导致 NaN 或训练中断。在小规模模型上,这种问题可能被优化器噪声或局部回滚掩盖。到了 DeepSeek-V4 这个规模,系统必须正面处理它。
针对路由反馈回路,DeepSeek-V4 给出的方案是 Anticipatory Routing。它的核心机制是时间错位:当前 step 的特征计算使用当前参数,而当前 step 的 routing decision 使用过去若干 steps 的参数预先算好并缓存。router 不再根据当前可能已经进入异常区间的 expert 状态立刻做决策,而是暂时沿用一份更稳定的历史路由视图,为异常 expert 提供一个短时间的缓冲窗口。论文里提到,Anticipatory Routing 采用动态激活方式,检测到 spike 后配合短回滚启用,把额外开销限制在故障修复窗口内。
第二个关键稳定性设计是 SwiGLU Clamping。具体做法是把 SwiGLU 的 linear branch 限制在正负 10 之间,gate branch 只做上界截断,cap 到 10。这个处理和低精度训练直接相关。DeepSeek-V4 的训练栈里,MoE expert weights 使用 FP4,forward GEMM 使用 FP8,某些 indexer 路径进一步降低精度。在这种数值范围下,SwiGLU 的极端输出会快速变成 outlier amplifier。后期训练中,一旦两个投影矩阵出现对齐趋势,SwiGLU 输出可能出现更强放大效应,直接触发 overflow、underflow 或精度严重丢失。SwiGLU Clamping 的作用就是把放大过程截断在低精度可承受区间内,损失一部分表达能力,换来训练过程的可持续性。对 DeepSeek-V4 这样的规模,这个取舍是合理的。
多层组合与分布式适配
把 DeepSeek-V4 的稳定性设计放在一起看,会更容易理解它的整体思路。不同层面承担了不同任务。架构层用 mHC 约束 residual mixing matrix 控制信号传播,用 QK-Norm 抑制 attention logits 爆炸,前 3 层使用 hash routing 减轻 learned routing 的早期 collapse 风险。优化器层用 Muon 作为主要优化器,Hybrid Newton-Schulz 用两阶段系数做正交化近似,兼顾速度和稳定性。数值层用 SwiGLU Clamping 抑制 activation outlier,AdamW ε 设为 1e-20 用于需要 AdamW 的部分参数,减少低精度下 ε 对更新幅度的干扰。调度层用 Anticipatory Routing 处理 spike 修复窗口,采用 4K 到 16K 到 64K 到 1M 的分阶段长度扩展,前 1T tokens 先用 dense attention 再切换到 sparse attention,给 indexer 足够的学习信号。
这些设计分别对应不同失败模式。单个技巧无法覆盖全部风险。DeepSeek-V4 的工程价值就在这里:它把多种不稳定来源分拆管理,再把这些管理策略拼回一套可运行系统。
DeepSeek-V4 还有一个很有工程价值的部分,是它如何让 Muon 适配大规模分布式训练。问题出在 ZeRO 这类框架默认假设优化器是 element-wise 的,而 Muon 是 matrix-wise 的。Muon 的 Newton-Schulz 迭代需要看到整个矩阵,不能像 AdamW 那样简单按分片独立更新。
对 dense parameters,V4 限制 ZeRO 并行规模,并用 knapsack 算法把参数矩阵按大小分配到不同 ranks 上,尽量让各 rank 的负载接近,这样每个矩阵的 Newton-Schulz 只在一个位置执行,减少重复计算。对 MoE parameters,V4 利用 expert 数量巨大的特点,把各层 experts 的 down、up、gate matrices 分组、拉平、填充后再均匀分发,每个 rank 尽量持有完整的小矩阵,而不是矩阵碎片。这个思路的关键点在于:对于拥有大量 experts 的大规模 MoE,矩阵分配本身可以成为负载均衡手段。
公开资料里,2025 到 2026 期间能看到的 trillion-scale MoE 加 Muon 成功案例并不多。DeepSeek-V4 和 Kimi K2 是两个重要样本。它们在稳定性处理上的重点不同:Kimi K2 更强调 QK-Clip 和 MuonClip,从优化器侧抑制 attention logit 爆炸;DeepSeek-V4 更强调 QK-Norm 加 Anticipatory Routing 加 SwiGLU Clamping,把稳定性更多前移到架构和调度层。这个差别说明,frontier MoE 训练还没有形成单一标准答案,不同团队可以在不同系统层面放置稳定性控制,但都必须付出额外复杂度。
适用边界
DeepSeek-V4 的核心贡献在于完成了一次高复杂度系统集成:用 HCA、CSA、SWA 让 1M Context 的成本进入可部署区间;用 Anticipatory Routing 和 SwiGLU Clamping 处理 trillion-scale MoE 的路由与数值风险;用 Muon 的分布式适配、长度调度和低精度实现把整套系统真正跑起来。从工程角度看,它更接近一份大规模系统实施方案,而不是一个可以拆出单个组件就直接复用到所有模型上的模块集合。
根据论文和分析里给出的数据,DeepSeek-V4 更适合长文档理解与摘要、大型代码库分析、多文档推理、长轨迹 agent 上下文维护这类任务。不太适合高精度 needle retrieval、法律条款逐段精确匹配、医学文献中的数字或实体精确抽取,以及需要在超长上下文里频繁做点对点定位的任务。如果任务核心是严格检索,RAG 仍然是更稳妥的系统设计。
DeepSeek-V4 给出的最重要信号,是 frontier open-weight 模型已经进入一个新的工程阶段:长上下文、低精度训练、MoE 路由和分布式优化器开始相互耦合,单一维度的改进很难独立成立。理解 DeepSeek-V4,最有效的方式是把它看成一套完整工程系统。它的设计质量,主要体现在这些模块如何共同运行,以及这些取舍如何在成本、质量和稳定性之间达到平衡。