随着语音交互在社交与数字娱乐场景中的应用不断深化传统模型逐渐暴露出局限性。近期Soul App AI团队联合上海交通大学X-LANCE Lab与西北工业大学ASLPNPU团队共同开源全双工语音对话控制模块SoulX-Duplug。该模块围绕语音对话系统的实时交互能力展开针对当前行业中普遍存在的响应延迟与系统结构复杂等问题提出解决方案成为语音交互领域的一项重要进展。在传统语音对话系统中半双工模式仍占据主流。系统在用户说话时负责接收输入而在系统回复阶段则无法接收新的语音信号。尽管部分端到端的全双工语音模型能够在生成回复的同时持续接收用户输入但其通常将语言生成与交互控制高度耦合导致模型训练复杂度提升对数据规模与系统调优提出更高要求。在实际工业应用中更常见的路径仍是通过语音活动检测VAD、语音识别ASR与对话轮次判断等模块构建级联系统。然而这类方案在响应速度与语义理解方面仍存在明显短板例如传统VAD缺乏语义信息、非流式ASR带来额外延迟、多模块串联增加系统负担等。针对上述情况SoulX-Duplug应运而生该模块通过统一建模语音活动检测、流式语音识别以及对话状态预测实现对语音交互过程的整体优化。在持续音频输入的条件下系统可以实时理解语音内容并动态判断当前对话状态从而实现更自然的交互体验。在技术实现上SoulX-Duplug基于GLM-4-Voice speech tokenizer以12.5Hz的频率提取离散语音token并采用160ms的流式处理窗口进行交替生成。这一机制使模型能够在语音识别与对话状态判断之间建立紧密联系从而在保证响应速度的同时提升语义理解能力。通过Soul App 团队的这一设计系统不仅能够识别用户说话内容还可以判断对话是否应继续、暂停或切换。文本引导的流式状态预测是Soul App AI团队的重要创新之一。传统语音活动检测主要依赖声学信号难以对语义层面进行判断而该模块通过在训练过程中引入语音识别目标使模型在进行状态预测时同步学习语义表示。在推理阶段模型以音频token、识别文本与状态token交替生成的方式运行从而实现具备语义感知能力的VAD机制。这一方法有效弥补了传统方案在语义理解上的不足。在训练与部署策略上SoulX-Duplug采用三阶段训练流程。首先通过非流式语音识别训练模型的基础理解能力其次在流式环境下进行适配训练最后通过对话状态预测任务进行联合优化使模型具备完整的全双工交互控制能力。在推理阶段系统可结合外部高效语音识别模型如Paraformer或SenseVoice从而在实际应用中兼顾稳定性与效率。为验证模块性能Soul App 团队基于SoulX-Duplug构建了完整的全双工语音对话系统并在中英双语的Full-Duplex-Bench评测基准上进行了测试。实验结果显示系统在多项指标上表现稳定在对话轮次管理能力方面优于现有模型同时在响应延迟方面也取得较为理想的结果。在实际部署环境中SoulX-Duplug作为独立模块的平均延迟约为250ms接近其理论延迟240ms。与传统基于VAD的方案相比约500ms以及近期提出的FlexDuo模块约343ms其响应速度表现更为均衡。这一结果表明通过模块化设计与统一建模策略可以在不增加系统复杂度的前提下优化实时交互性能。此外Soul App 团队同步开源了SoulX-Duplug-Eval评测基准为全双工语音对话系统提供统一的双语评估框架。围绕实时语音对话的关键问题Soul App此次发布的SoulX-Duplug在系统结构与交互机制上提供了新的实现路径也为行业提供了可参考的工程化方案。