Soul App探索实时语音交互新技术，联合高校开源SoulX-Duplug模块

张

张建站

2026/5/8 16:55:09

10分钟阅读

Soul App探索实时语音交互新技术，联合高校开源SoulX-Duplug模块

随着语音交互在社交与数字娱乐场景中的应用不断深化传统模型逐渐暴露出局限性。近期Soul App AI团队联合上海交通大学X-LANCE Lab与西北工业大学ASLPNPU团队共同开源全双工语音对话控制模块SoulX-Duplug。该模块围绕语音对话系统的实时交互能力展开针对当前行业中普遍存在的响应延迟与系统结构复杂等问题提出解决方案成为语音交互领域的一项重要进展。在传统语音对话系统中半双工模式仍占据主流。系统在用户说话时负责接收输入而在系统回复阶段则无法接收新的语音信号。尽管部分端到端的全双工语音模型能够在生成回复的同时持续接收用户输入但其通常将语言生成与交互控制高度耦合导致模型训练复杂度提升对数据规模与系统调优提出更高要求。在实际工业应用中更常见的路径仍是通过语音活动检测VAD、语音识别ASR与对话轮次判断等模块构建级联系统。然而这类方案在响应速度与语义理解方面仍存在明显短板例如传统VAD缺乏语义信息、非流式ASR带来额外延迟、多模块串联增加系统负担等。针对上述情况SoulX-Duplug应运而生该模块通过统一建模语音活动检测、流式语音识别以及对话状态预测实现对语音交互过程的整体优化。在持续音频输入的条件下系统可以实时理解语音内容并动态判断当前对话状态从而实现更自然的交互体验。在技术实现上SoulX-Duplug基于GLM-4-Voice speech tokenizer以12.5Hz的频率提取离散语音token并采用160ms的流式处理窗口进行交替生成。这一机制使模型能够在语音识别与对话状态判断之间建立紧密联系从而在保证响应速度的同时提升语义理解能力。通过Soul App 团队的这一设计系统不仅能够识别用户说话内容还可以判断对话是否应继续、暂停或切换。文本引导的流式状态预测是Soul App AI团队的重要创新之一。传统语音活动检测主要依赖声学信号难以对语义层面进行判断而该模块通过在训练过程中引入语音识别目标使模型在进行状态预测时同步学习语义表示。在推理阶段模型以音频token、识别文本与状态token交替生成的方式运行从而实现具备语义感知能力的VAD机制。这一方法有效弥补了传统方案在语义理解上的不足。在训练与部署策略上SoulX-Duplug采用三阶段训练流程。首先通过非流式语音识别训练模型的基础理解能力其次在流式环境下进行适配训练最后通过对话状态预测任务进行联合优化使模型具备完整的全双工交互控制能力。在推理阶段系统可结合外部高效语音识别模型如Paraformer或SenseVoice从而在实际应用中兼顾稳定性与效率。为验证模块性能Soul App 团队基于SoulX-Duplug构建了完整的全双工语音对话系统并在中英双语的Full-Duplex-Bench评测基准上进行了测试。实验结果显示系统在多项指标上表现稳定在对话轮次管理能力方面优于现有模型同时在响应延迟方面也取得较为理想的结果。在实际部署环境中SoulX-Duplug作为独立模块的平均延迟约为250ms接近其理论延迟240ms。与传统基于VAD的方案相比约500ms以及近期提出的FlexDuo模块约343ms其响应速度表现更为均衡。这一结果表明通过模块化设计与统一建模策略可以在不增加系统复杂度的前提下优化实时交互性能。此外Soul App 团队同步开源了SoulX-Duplug-Eval评测基准为全双工语音对话系统提供统一的双语评估框架。围绕实时语音对话的关键问题Soul App此次发布的SoulX-Duplug在系统结构与交互机制上提供了新的实现路径也为行业提供了可参考的工程化方案。

Sunshine游戏串流服务器终极指南：8步搭建你的私人云游戏平台

Sunshine游戏串流服务器终极指南：8步搭建你的私人云游戏平台【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 想要在任何设备上流畅游玩PC游戏吗？Sunshine作…...

2026/5/8 16:54:50 阅读更多 →

Spring 的 Bean 对象什么？

一，Spring 的 Bean 对象什么？1.1 Bean对象是什么？在Java传统的项目里面，代码各层之间的对象引入与调用基本上都是通过关键字 new 创建出来。对象之间的依赖关系是由程序员手动管理。这种方式代码耦合度极高，维护成本极…...

2026/5/8 16:54:49 阅读更多 →

高性能动态化客户端应用开发框架选型指南

一、背景：企业级客户端的三大核心挑战在移动互联网时代，企业级客户端应用面临三大核心挑战： 挑战说明多端覆盖需同时支持 Android、iOS、HarmonyOS（鸿蒙）、Web、小程序高性能体验用户对流畅度要求极高&…...

2026/5/8 16:54:42 阅读更多 →

LoopViT：结合循环机制的视觉Transformer优化架构

1. 项目概述在计算机视觉领域，Transformer架构近年来展现出惊人的潜力。LoopViT是我最近开发的一种新型视觉推理架构，它通过引入循环机制改进了传统视觉Transformer的计算效率和信息流模式。这个架构特别适合处理视频分析、医学影像分割等需要时序建模的…...

2026/5/8 5:06:09 阅读更多 →

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版频繁提示…...

2026/5/8 5:15:02 阅读更多 →

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

2026/5/7 9:19:11 阅读更多 →