【AAAI2026】GuideGen:用文本引导生成全躯干 CT 图像与解剖掩码的前沿方法解析
【AAAI2026】GuideGen用文本引导生成全躯干 CT 图像与解剖掩码的前沿方法解析在医学影像人工智能领域高质量标注数据一直是训练深度学习模型的瓶颈。传统方法中生成 CT 图像通常只关注局部器官或固定区域而对全躯干的多器官和病灶生成存在困难。GuideGen 提出了一种创新框架通过结构化文本 prompt结合分类扩散categorical diffusion和 HDR 自编码器实现全躯干 CT 图像与对应解剖掩码的渐进式生成为多器官分割和肿瘤检测提供高质量合成数据。论文图1是GuideGen整体框架展示文本条件输入→mask latent→HDR autoencoder→latent-guided diffusion→CT输出的生成流程。为了方便读者理解重绘了一幅图。GuideGen的优势是什么在传统方法中生成医学影像通常只关注局部器官或固定区域难以覆盖全躯干。而在临床应用中研究者不仅需要图像更需要与图像严格对齐的掩码来训练分割模型或进行多器官分析。GuideGen 的创新在于分阶段生成先生成 mask latent再生成 CT latent最后解码为全躯干 CT 图像文本条件控制用户可以通过结构化 prompt 指定器官、肿瘤数量及位置高保真结构和细节HDR autoencoder 保留高低强度差异保持骨骼、软组织和肿瘤细节。在生成过程中mask latent 在潜空间中先行生成然后作为结构指导参与 CT 图像生成从而实现渐进式联合生成。GuideGen 核心技术原理1. Categorical Diffusion分类扩散Mask latent 的生成采用categorical diffusion这是 GuideGen 的核心创新之一。与普通 diffusion 处理连续值不同mask 是离散类别 voxel每个 voxel 可能属于 N 个类别器官、肿瘤、背景。前向扩散过程逐步扰动 one-hot 类别分布q(xt∣xt−1)(1−βt)e(xt−1)βt1N q(x_t \mid x_{t-1}) (1-\beta_t) e(x_{t-1}) \beta_t \frac{1}{N}q(xt∣xt−1)(1−βt)e(xt−1)βtN1其中e(xt−1)e(x_{t-1})e(xt−1)是 one-hot 编码βt\beta_tβt是噪声权重。反向去噪由 UNet 模型预测每个 voxel 的类别概率x^t−1\hat{x}_{t-1}x^t−1优化 KL 散度LKLEx0,t[DKL(q(xt−1∣xt,x0)∥pθ(xt−1∣xt))] L_{KL} \mathbb{E}_{x_0,t} \Big[D_{KL}\big(q(x_{t-1}\mid x_t,x_0) \parallel p_\theta(x_{t-1}\mid x_t)\big)\Big]LKLEx0,t[DKL(q(xt−1∣xt,x0)∥pθ(xt−1∣xt))]Categorical diffusion 的优势在于直接生成离散 mask保证边界清晰、语义一致并为后续 CT 潜空间生成提供结构引导。相比连续 diffusionmask 不会出现灰色或半透明类别小器官和肿瘤边界保留更好。2. HDR Autoencoder解剖感知高动态范围自编码器输入是真实 CT 体积vvv与 mask latentm^\hat{m}m^。HDR autoencoder 对 CT 灰度进行 learnable scale bias 映射解决高动态范围-1000 HU 至 3000 HU下低强度病灶被忽略的问题。编码器在每一层融合 mask latent生成潜空间表示z0z_0z0。训练损失包括Lrec∥D(E(v,m^))−v∥22,Lperc∥ϕ(D(E(v,m^)))−ϕ(v)∥22 L_{rec} \|D(E(v,\hat{m})) - v\|_2^2, \quad L_{perc} \|\phi(D(E(v,\hat{m}))) - \phi(v)\|_2^2Lrec∥D(E(v,m^))−v∥22,Lperc∥ϕ(D(E(v,m^)))−ϕ(v)∥22其中E/DE/DE/D分别为编码器/解码器ϕ\phiϕ为感知特征提取器。这里 mask latent 作为结构引导使潜空间同时保留图像纹理和语义信息为后续潜空间 diffusion 提供稳定结构。3. Latent-guided Diffusion Knowledge Injection潜空间 diffusion 模块联合 mask latent、CT latent 和文本 latent在 latent 空间逐步去噪生成最终 CT latent再由 autoencoder 解码成 CT 图像。文本条件通过 cross-attention 注入 UNet 每一层zt−1UNet(zt,etext,m^) z_{t-1} UNet(z_t, e_{text}, \hat{m})zt−1UNet(zt,etext,m^)Knowledge Injection 模块利用 transformer decoder 提取文本中任务相关信息保证 mask-prompt 对齐提高结构控制能力。4. 开源代码对应模块train_mask_synthesizer.pycategorical diffusion UNet 训练loss 为 KL divergenceautoencoder.pyHDR autoencoder 编码器和解码器同时融合 mask latentlatent_diffusion.py潜空间 3D UNet diffusion实现 cross-attention 注入文本条件knowledge_injection.py提取任务相关文本知识并注入 UNet保证 mask 与 prompt 对齐。实验与结果GuideGen 在全躯干 mask 与 CT 图像生成上优于 Pinaya、GenerateCT、MedSyn、MAISI 等基线。GuideGen 在图像-语义 mask 对齐上 DSC 平均 0.65明显高于 MedSyn 和 Zhuang’s 方法。对下游任务多器官分割和肿瘤分割BTCV、AMOS、MSD、KiTS21GuideGen 生成样本训练的 nnU-Net 模型 Dice 分数明显优于其他生成方法甚至部分指标可接近真实数据训练。Ablation 实验显示缺少 knowledge injection 或 HDR autoencoder 会明显降低 mask-prompt 对齐和下游分割性能。图 2显示基于同一文本 prompt 的生成效果GuideGen mask 标红CT 图像清晰且器官结构合理。图 3展示 tumor 数量与位置的 mask-prompt 对齐情况。批判性分析GuideGen 的优势在于全躯干生成、mask-prompt 对齐和渐进式生成尤其是 categorical diffusion 保证了离散 mask 的精度。然而局限也很明显对structured prompt 依赖强自由文本灵活性有限全躯干生成分辨率仅 128³微小血管或肿瘤可能丢失GPU 内存消耗高训练 batch1VRAM 20GB临床可用性和病理多样性尚未充分验证。尽管如此GuideGen 在 mask 对齐精度、下游多器官分割性能上领先现有方法尤其适合稀缺数据增强和训练预训练模型。总结GuideGen 通过categorical diffusion → HDR autoencoder → latent-guided diffusion → Knowledge Injection的组合实现了全躯干 CT 与掩码的渐进式生成。数学原理、潜空间建模、mask-prompt 对齐和可学习下采样等技术保证了生成数据的结构与语义一致性为医学影像 AI 数据增强提供了可行的解决方案。