Duix

2天前发布 2 00

Duix Mobile是一个可部署在手机或嵌入式屏幕的实时对话数字人 SDK。开发者可以轻松集成自有或第三方的大语言模型(LLM)、语音识别(ASR)和语音合成(TTS)服务,快速构建能与用户自然对话的数字人界面。Duix Mobile 支持一键跨平台部署(Android/iOS),上手门槛低,适用于智能客服、虚拟医生、虚拟律师、虚拟陪伴...

所在地:
中国
收录时间:
2025-12-12

硅基智能近日开源了 Duix Mobile —— 一个专为移动端和嵌入式终端设计的实时对话数字人 SDK。它允许开发者将自有或第三方的大语言模型(LLM)、语音识别(ASR)和语音合成(TTS)服务,快速集成到一个具备自然表情、唇动同步、情绪共鸣的数字人界面中。

Duix

核心定位

Duix Mobile 并非一个封闭的“数字人应用”,而是一个可嵌入、可定制、可扩展的开发工具包(SDK)。其目标是让任何需要“拟人化交互”的产品,都能在手机、平板、车载屏、VR 设备、IoT 终端甚至大屏上,快速部署一个低延迟、高真实感的对话数字人。

关键技术特性

流式音频支持(2025 年 7 月上线)

支持边合成、边播放的流式 TTS 输出,并允许用户在数字人说话过程中中途打断或抢话。这一机制大幅提升了对话的自然性和实时性,避免传统“听完才能回”的机械感。

极致低延迟

在搭载 骁龙® 8 Gen 2 SoC 的测试设备上,端到端响应延迟低于 120ms。从用户语音输入到数字人开始回应,整个流程接近人类对话节奏。

弱网/离线友好

核心对话逻辑与渲染可在本地完成,对网络依赖极低。特别适合金融、政务、法律、医疗等对稳定性与隐私要求高的场景。

精准唇动同步

数字人嘴型与语音高度匹配,支持多语种字幕叠加,提升可访问性与观看体验。

轻量化设计

资源占用低,可在主流 Android/iOS 手机、平板及嵌入式屏幕设备上流畅运行,无需高端 GPU 或专用芯片。

Duix

集成灵活性

  • 支持自定义 LLM/ASR/TTS:开发者可接入自己的大模型或第三方服务(如 Whisper、Azure TTS、通义千问等);
  • 提供语音回调接口:支持监听语音开始/结束事件,便于与业务逻辑联动;
  • 模块化架构:面部动画、语音驱动、UI 渲染等模块解耦,便于按需定制。

数字人定制

  • 开箱即用提供 8 个公有数字人形象
  • 如需专属形象,仅需提供 15 秒至 2 分钟的视频素材,即可完成定制;
  • 定制流程简单,支持企业级交付(可通过官方企业微信联系)。

应用场景

Duix Mobile 适用于任何需要“拟人化语音交互”的产品场景,包括但不限于:

  • 智能客服:在银行、电信等 App 中嵌入 24 小时数字客服;
  • 虚拟医生/律师/教师:在医疗、法律、教育类应用中提供陪伴式问答;
  • 车载助手:在车机系统中实现自然语音交互,提升驾驶安全;
  • 零售导购:在智能屏或 POS 终端上提供商品讲解;
  • VR/AR 交互:在虚拟空间中构建可对话的数字角色。

生态联动

Duix Mobile 是 Duix 系列开源项目的一部分,其他相关工具包括:

  • Duix.com:云端实时交互数字人服务(SaaS);
  • Duix-Avatar:开源 AI 数字人视频生成工具;
  • Duix-Reface:开源实时高保真人脸替换引擎。

数据统计

相关导航

暂无评论

none
暂无评论...