硅基智能近日开源了 Duix Mobile —— 一个专为移动端和嵌入式终端设计的实时对话数字人 SDK。它允许开发者将自有或第三方的大语言模型(LLM)、语音识别(ASR)和语音合成(TTS)服务,快速集成到一个具备自然表情、唇动同步、情绪共鸣的数字人界面中。

核心定位
Duix Mobile 并非一个封闭的“数字人应用”,而是一个可嵌入、可定制、可扩展的开发工具包(SDK)。其目标是让任何需要“拟人化交互”的产品,都能在手机、平板、车载屏、VR 设备、IoT 终端甚至大屏上,快速部署一个低延迟、高真实感的对话数字人。
关键技术特性
流式音频支持(2025 年 7 月上线)
支持边合成、边播放的流式 TTS 输出,并允许用户在数字人说话过程中中途打断或抢话。这一机制大幅提升了对话的自然性和实时性,避免传统“听完才能回”的机械感。
极致低延迟
在搭载 骁龙® 8 Gen 2 SoC 的测试设备上,端到端响应延迟低于 120ms。从用户语音输入到数字人开始回应,整个流程接近人类对话节奏。
弱网/离线友好
核心对话逻辑与渲染可在本地完成,对网络依赖极低。特别适合金融、政务、法律、医疗等对稳定性与隐私要求高的场景。
精准唇动同步
数字人嘴型与语音高度匹配,支持多语种字幕叠加,提升可访问性与观看体验。
轻量化设计
资源占用低,可在主流 Android/iOS 手机、平板及嵌入式屏幕设备上流畅运行,无需高端 GPU 或专用芯片。

集成灵活性
- 支持自定义 LLM/ASR/TTS:开发者可接入自己的大模型或第三方服务(如 Whisper、Azure TTS、通义千问等);
- 提供语音回调接口:支持监听语音开始/结束事件,便于与业务逻辑联动;
- 模块化架构:面部动画、语音驱动、UI 渲染等模块解耦,便于按需定制。
数字人定制
- 开箱即用提供 8 个公有数字人形象;
- 如需专属形象,仅需提供 15 秒至 2 分钟的视频素材,即可完成定制;
- 定制流程简单,支持企业级交付(可通过官方企业微信联系)。
应用场景
Duix Mobile 适用于任何需要“拟人化语音交互”的产品场景,包括但不限于:
- 智能客服:在银行、电信等 App 中嵌入 24 小时数字客服;
- 虚拟医生/律师/教师:在医疗、法律、教育类应用中提供陪伴式问答;
- 车载助手:在车机系统中实现自然语音交互,提升驾驶安全;
- 零售导购:在智能屏或 POS 终端上提供商品讲解;
- VR/AR 交互:在虚拟空间中构建可对话的数字角色。
生态联动
Duix Mobile 是 Duix 系列开源项目的一部分,其他相关工具包括:
- Duix.com:云端实时交互数字人服务(SaaS);
- Duix-Avatar:开源 AI 数字人视频生成工具;
- Duix-Reface:开源实时高保真人脸替换引擎。
数据统计
相关导航

Gaga AI

慧播星

即梦AI

Audio2Face

Hedra

星野APP






