Soul App发布SoulX-FlashHead,轻量化模型拓宽实时数字人应用边界
近日Soul App在实时数字人领域取得新的技术进展——其旗下 Soul AI Lab 正式开源实时数字人生成模型 SoulX-FlashHead。该模型以 1.3B 参数规模实现了在单张消费级显卡 RTX 4090 上稳定运行 96FPS 的工业级速度同时兼顾画质表现为实时数字人从专业算力环境走向更广泛应用场景提供了新的技术路径。在此之前Soul AI Lab 已于今年1月开源实时数字人模型 SoulX-FlashTalk。该模型以 0.87 秒的亚秒级延时、32FPS 的高帧率以及对超长视频稳定生成的支持引发了行业对实时数字人技术可落地性的关注。相较于SoulX-FlashTalkSoulX-FlashHead的核心突破在于进一步降低硬件门槛将高保真实时生成能力从集中式算力环境延伸至个人工作站使实时数字人不再局限于特定场景。例如在7×24小时矩阵直播场景中个人主播仅需一台游戏级PC即可搭建高保真电商直播环境在游戏领域该模型体量小、易集成能够支持 NPC 毫秒级响应并避免对核心渲染资源造成占用在教育场景中模型支持 15 种语言的实时驱动将音频转化为同步的数字人教学画面适用于 AI 一对一外教等互动需求。在具体性能表现上SoulX-FlashHead 针对不同需求提供了 Lite 与 Pro 两个版本。Lite版本以高速率为目标在单卡 RTX 4090 上可实现 96FPS 的推理速度仅占用 6.4G 显存并支持最高3路并发使实时数字人首次具备在消费级终端规模化运行的可行性。Pro 版本则更注重画质在单卡 RTX 5090 上可实现 16.8FPS双卡条件下帧率可稳定在 25FPS 以上其在视觉质量与唇形一致性指标上的表现达到SOTA。在模型设计层面针对长视频生成中常见的身份漂移问题团队引入了双向蒸馏机制通过具备全局视角的教师模型对生成过程进行强约束使人物特征在长时间输出中保持稳定。与此同时模型在流式生成中采用时序音频上下文缓存策略强制保留 8 秒历史音频特征用以弥补短音频切片带来的上下文缺失从而改善口型抖动和同步偏差问题提升整体观看体验。数据层面Soul AI Lab 构建了自研的 VividHead 数据集作为训练基础。该数据集从超过 10,000 小时素材中筛选出 782 小时高质量音画数据并经过切分、关键点检测以及唇形一致性评分等多重处理流程为模型训练提供了相对纯净且一致的数据基础。在评测中SoulX-FlashHead 在 HDTF 与 VFHQ 等权威数据集上展现了稳定表现。在高清视频评测中Pro 版本以 8.31 的 FID 和 103.14 的 FVD 成绩取得领先画面细腻度超过部分参数规模更大的模型在复杂真实场景测试中其 Sync-C 得分达到 5.60口型同步表现明显提升。同时Lite 版本在单张 RTX 4090 上实现 96FPS 的吞吐能力远高于实时基准帧率推理效率在同类模型中具备显著优势。此次发布的SoulX-FlashHead 展示了Soul App在实时数字人领域的工程能力与研究深度也为相关应用的规模化落地提供了可参考的技术范式。