谷歌开源DiffusionGemma 260亿参数模型本地生成速度提升4倍
谷歌DeepMind在2026年6月11日推出DiffusionGemma模型总参数达到260亿属于Gemma开放权重家族的新成员。该模型不采用主流自回归生成方式而是借鉴图像扩散模型的思路先用占位符生成一段文本再通过多轮修正得到最终结果。技术原理简述传统聊天机器人按顺序逐个预测token用户看到文字逐步出现。DiffusionGemma则一次并行处理最多256个token随后进行修正。这种方法在硬件算力充足时能显著提高生成速度。官方数据显示单张NVIDIA H100上速度超过1000 token/秒GeForce RTX 5090上超过700 token/秒较同类自回归模型快约4倍。模型采用混合专家架构每次推理只激活约38亿参数。这使得它有机会在18GB显存级别的GPU上运行降低了本地部署门槛。模型支持多模态输入和文本输出延续了谷歌用可本地部署模型争夺开发者生态的策略。实际应用场景对本地AI使用者而言这意味着隐私敏感或网络不稳定的场景可以更多依赖本机显卡完成文本生成。谷歌将DiffusionGemma放入Gemma开放权重体系开发者可直接下载权重进行实验。谷歌称在专用GPU的低延迟本地推理场景下其文本生成速度最高可比传统自回归模型快约4倍。技术影响分析扩散文本模型此前未成主流主要因为自然语言对语法顺序和事实约束要求更高。DiffusionGemma证明扩散路线能在开放权重文本模型上实现明显速度优势。行业关注其对移动端和多模态应用的潜在影响。参数激活比例低的特点有助于在消费级硬件上运行这可能推动本地AI应用从云端向端侧迁移。速度优势明确并行生成机制减少了顺序依赖。部署门槛降低38亿激活参数适合中端GPU。© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接