Open Avatar Chat

2个月前发布 379 00

OpenAvatarChat 是一个功能强大且高度模块化的数字人系统,能够在单台 PC 上流畅运行,支持多模态交互。其开源特性为开发者提供了极大的自由度,可以根据具体需求进行定制和优化。

所在地:
中国
收录时间:
2025-04-26
其他站点:
Open Avatar ChatOpen Avatar Chat

阿里巴巴开源了一个完整的数字人对话系统 OpenAvatarChat,能够在单台 PC 上流畅运行。该系统支持多模态交互(文本、音频、视频),平均响应时间仅 2.2 秒,为开发者和用户提供了低延迟的实时对话体验。尽管目前在表情自然度和口型同步方面还有优化空间,但其模块化设计和高性能表现使其成为一个极具潜力的开源项目。

Open Avatar Chat

核心亮点

  1. 低延迟实时对话
    平均回答延迟仅为 2.2 秒,包括从用户语音结束到数字人开始回应的整个流程(如 RTC 数据传输、VAD 停止延迟及计算时间)。这使得 OpenAvatarChat 在实时交互场景中表现出色。
  2. 多模态语言模型支持
    系统支持多模态语言模型,能够处理文本、音频、视频等多模态输入输出。默认使用 MiniCPM-o 作为多模态语言模型,也可以通过云端 API 替换为常规的 ASR(自动语音识别)+ LLM(大语言模型)+ TTS(文本转语音)组合。
  3. 模块化设计
    OpenAvatarChat 采用模块化架构,允许灵活替换组件以实现不同的功能组合。无论是更换语言模型、调整语音合成方式,还是优化视觉效果,都可以根据需求自定义配置。
  4. 轻量化与高性能
    数字人部分支持 GPU 或 CPU 推理,在 i9-13980HX 的 CPU 上可达到 30 FPS 的流畅运行效果。此外,通过使用 int4 量化版本 的语言模型,可以在显存低于 10GB 的显卡上运行,进一步降低了硬件门槛。

最新动态与更新日志

[2025.04.18] 版本 0.3.0

  • 新增对 LAM 数字人的支持:LAM 是一个开源项目,能够通过单张图片快速生成超写实 3D 数字人。
  • 增加百炼 API 的 TTS 处理器:大幅减少对 GPU 的依赖。
  • 支持微软 Edge TTS:提供更多语音合成选择。
  • 改进包管理:使用 uv 进行 Python 包管理,依赖安装可根据激活的 handler 动态调整。
  • CSS 响应式布局更新:优化界面适配性。

[2025.04.14] 版本 0.2.2

  • 发布 100 个新形象,可通过 LiteAvatarGallery 查看。
  • 默认使用 GPU 后端运行数字人,提升性能。

[2025.04.07] 版本 0.2.1

  • 增加历史记录支持。
  • 支持纯文本输入。
  • 启动时不再强制要求摄像头存在。
  • 优化模块化加载方式。

[2025.02.20] 版本 0.1.0

  • 初版发布,支持模块化的实时交互数字人。
  • 提供两种调用方式:MiniCPM-o 多模态语言模型或云端 API 实现 ASR + LLM + TTS。

待办清单

  • 预置的数字人模型数量达到 100 个
  • 接入 LAM:单图秒级生成超写实 3D 数字人的开源项目。
  • 接入 Qwen2.5-Omni:进一步增强多模态能力。

在线体验 Demo

OpenAvatarChat 已在 ModelScope 和 HuggingFace 平台上部署了 LiteAvatar 体验服务。音频部分由 SenseVoice + Qwen-VL + CosyVoice 实现,欢迎试用。(LAM 的体验服务正在部署中)

系统需求

  • Python 版本:>= 3.10, < 3.12
  • 硬件要求

    • 支持 CUDA 的 GPU
    • 未量化的 MiniCPM-o 需要 20GB 以上显存
    • 数字人部分支持 GPU/CPU 推理,测试设备为 i9-13980HX,CPU 推理下可达到 30 FPS

提示
使用 int4 量化版本 的语言模型,可以在显存低于 10GB 的显卡上运行,但可能会因量化影响效果。
如果硬件资源有限,建议使用云端 API 替代 MiniCPM-o,具体可参考 ASR + LLM + TTS 方案

适用场景

OpenAvatarChat 的灵活性和多模态能力使其适用于多种场景,包括但不限于:

  • 客户服务:虚拟客服助手,提供实时语音或文字支持。
  • 教育领域:虚拟教师或学习助手,辅助学生完成任务。
  • 娱乐互动:虚拟主播、游戏角色或其他互动数字人。
  • 企业应用:内部培训、会议助理或自动化流程支持。

数据统计

相关导航

暂无评论

none
暂无评论...