Open Avatar Chat

9个月前发布 961 00

OpenAvatarChat 是一个功能强大且高度模块化的数字人系统，能够在单台 PC 上流畅运行，支持多模态交互。其开源特性为开发者提供了极大的自由度，可以根据具体需求进行定制和优化。

所在地：

中国

收录时间：

2025-04-26

其他站点:

DEMO 魔塔DEMO

打开网站手机查看

Open Avatar Chat

打开网站

阿里巴巴开源了一个完整的数字人对话系统 OpenAvatarChat，能够在单台 PC 上流畅运行。该系统支持多模态交互（文本、音频、视频），平均响应时间仅 2.2 秒，为开发者和用户提供了低延迟的实时对话体验。尽管目前在表情自然度和口型同步方面还有优化空间，但其模块化设计和高性能表现使其成为一个极具潜力的开源项目。

核心亮点

低延迟实时对话
平均回答延迟仅为 2.2 秒，包括从用户语音结束到数字人开始回应的整个流程（如 RTC 数据传输、VAD 停止延迟及计算时间）。这使得 OpenAvatarChat 在实时交互场景中表现出色。
多模态语言模型支持
系统支持多模态语言模型，能够处理文本、音频、视频等多模态输入输出。默认使用 MiniCPM-o 作为多模态语言模型，也可以通过云端 API 替换为常规的 ASR（自动语音识别）+ LLM（大语言模型）+ TTS（文本转语音）组合。
模块化设计
OpenAvatarChat 采用模块化架构，允许灵活替换组件以实现不同的功能组合。无论是更换语言模型、调整语音合成方式，还是优化视觉效果，都可以根据需求自定义配置。
轻量化与高性能
数字人部分支持 GPU 或 CPU 推理，在 i9-13980HX 的 CPU 上可达到 30 FPS 的流畅运行效果。此外，通过使用 int4 量化版本 的语言模型，可以在显存低于 10GB 的显卡上运行，进一步降低了硬件门槛。

待办清单

预置的数字人模型数量达到 100 个。
接入 LAM：单图秒级生成超写实 3D 数字人的开源项目。
接入 Qwen2.5-Omni：进一步增强多模态能力。

在线体验 Demo

OpenAvatarChat 已在 ModelScope 和 HuggingFace 平台上部署了 LiteAvatar 体验服务。音频部分由 SenseVoice + Qwen-VL + CosyVoice 实现，欢迎试用。（LAM 的体验服务正在部署中）

系统需求

Python 版本：>= 3.10, < 3.12
硬件要求：
- 支持 CUDA 的 GPU
- 未量化的 MiniCPM-o 需要 20GB 以上显存。
- 数字人部分支持 GPU/CPU 推理，测试设备为 i9-13980HX，CPU 推理下可达到 30 FPS。

提示：
使用 int4 量化版本 的语言模型，可以在显存低于 10GB 的显卡上运行，但可能会因量化影响效果。
如果硬件资源有限，建议使用云端 API 替代 MiniCPM-o，具体可参考 ASR + LLM + TTS 方案。

适用场景

OpenAvatarChat 的灵活性和多模态能力使其适用于多种场景，包括但不限于：

客户服务：虚拟客服助手，提供实时语音或文字支持。
教育领域：虚拟教师或学习助手，辅助学生完成任务。
娱乐互动：虚拟主播、游戏角色或其他互动数字人。
企业应用：内部培训、会议助理或自动化流程支持。

数据统计

暂无评论

暂无评论...

Open Avatar Chat

核心亮点

最新动态与更新日志

[2025.04.18] 版本 0.3.0

[2025.04.14] 版本 0.2.2

[2025.04.07] 版本 0.2.1

[2025.02.20] 版本 0.1.0

待办清单

在线体验 Demo

系统需求

适用场景

数据统计

相关导航

Audio2Face

Duix

慧播星

通义灵码

WeClone

Qoder

通义万象

呜哩（WuLi）

暂无评论

网址

Fogsight (雾象)

人生 K 线

MemU

NotebookLM

Grok

Midjourney

Fogsight (雾象)

人生 K 线

MemU

NotebookLM

Grok

Midjourney

Open Avatar Chat

核心亮点

最新动态与更新日志

[2025.04.18] 版本 0.3.0

[2025.04.14] 版本 0.2.2

[2025.04.07] 版本 0.2.1

[2025.02.20] 版本 0.1.0

待办清单

在线体验 Demo

系统需求

适用场景

数据统计

相关导航

Audio2Face

Duix

慧播星

通义灵码

WeClone

Qoder

通义万象

呜哩（WuLi）

暂无评论

网址

Fogsight (雾象)

人生 K 线

MemU

NotebookLM

Grok

Midjourney

标签云

网址

Fogsight (雾象)

人生 K 线

MemU

NotebookLM

Grok

Midjourney