一、核心突破与整体定位DeepSeek-V4 是 2026 年 4 月发布的新一代开源大模型,核心目标是解决长上下文的工程化落地难题,通过架构、训练和推理的全栈优化,实现了 "百万上下文能用、好用、日常用"。整体技术路线DeepSeek-V4 基于 "Transformer + DeepSeekMoE + MTP" 底盘,相比 V3.2 做了四大核心升级:注意力层:从 MLA/DSA 改为CSA+HCA 混合稀疏注意力,沿序列维度压缩 KV Cache残差连接:从标准 residual 改为mHC(流形约束超连接),解决深层堆叠的数值不稳定优化器:从 AdamW 改为Muon 优化器,加快收敛并提升训练稳定性量化:引入FP4 量化感知训练(QAT),将 MoE 权重体积砍半