阿里巴巴开源了一个完整的数字人对话系统 OpenAvatarChat,能够在单台 PC 上流畅运行。该系统支持多模态交互(文本、音频、视频),平均响应时间仅 2.2 秒,为开发者和用户提供了低延迟的实时对话体验。尽管目前在表情自然度和口型同步方面还有优化空间,但其模块化设计和高性能表现使其成为一个极具潜力的开源项目。

核心亮点
- 低延迟实时对话
平均回答延迟仅为 2.2 秒,包括从用户语音结束到数字人开始回应的整个流程(如 RTC 数据传输、VAD 停止延迟及计算时间)。这使得 OpenAvatarChat 在实时交互场景中表现出色。 - 多模态语言模型支持
系统支持多模态语言模型,能够处理文本、音频、视频等多模态输入输出。默认使用 MiniCPM-o 作为多模态语言模型,也可以通过云端 API 替换为常规的 ASR(自动语音识别)+ LLM(大语言模型)+ TTS(文本转语音)组合。 - 模块化设计
OpenAvatarChat 采用模块化架构,允许灵活替换组件以实现不同的功能组合。无论是更换语言模型、调整语音合成方式,还是优化视觉效果,都可以根据需求自定义配置。 - 轻量化与高性能
数字人部分支持 GPU 或 CPU 推理,在 i9-13980HX 的 CPU 上可达到 30 FPS 的流畅运行效果。此外,通过使用 int4 量化版本 的语言模型,可以在显存低于 10GB 的显卡上运行,进一步降低了硬件门槛。
最新动态与更新日志
[2025.04.18] 版本 0.3.0
- 新增对 LAM 数字人的支持:LAM 是一个开源项目,能够通过单张图片快速生成超写实 3D 数字人。
- 增加百炼 API 的 TTS 处理器:大幅减少对 GPU 的依赖。
- 支持微软 Edge TTS:提供更多语音合成选择。
- 改进包管理:使用
uv
进行 Python 包管理,依赖安装可根据激活的 handler 动态调整。
[2025.04.14] 版本 0.2.2
- 发布 100 个新形象,可通过 LiteAvatarGallery 查看。
[2025.04.07] 版本 0.2.1
[2025.02.20] 版本 0.1.0
- 提供两种调用方式:MiniCPM-o 多模态语言模型或云端 API 实现 ASR + LLM + TTS。
待办清单
- 接入 LAM:单图秒级生成超写实 3D 数字人的开源项目。
- 接入 Qwen2.5-Omni:进一步增强多模态能力。
在线体验 Demo
OpenAvatarChat 已在 ModelScope 和 HuggingFace 平台上部署了 LiteAvatar 体验服务。音频部分由 SenseVoice + Qwen-VL + CosyVoice 实现,欢迎试用。(LAM 的体验服务正在部署中)
系统需求
- Python 版本:>= 3.10, < 3.12
- 硬件要求:
- 未量化的 MiniCPM-o 需要 20GB 以上显存。
- 数字人部分支持 GPU/CPU 推理,测试设备为 i9-13980HX,CPU 推理下可达到 30 FPS。
提示:
使用 int4 量化版本 的语言模型,可以在显存低于 10GB 的显卡上运行,但可能会因量化影响效果。
如果硬件资源有限,建议使用云端 API 替代 MiniCPM-o,具体可参考 ASR + LLM + TTS 方案。
适用场景
OpenAvatarChat 的灵活性和多模态能力使其适用于多种场景,包括但不限于: