人类是社会性动物,赋予3D自主角色类似的社会智能,使其能够感知、理解和与人类互动,是一个开放且基础的问题。商汤科技研究院和南洋理工大学的研究人员提出了SOLAMI,这是第一个端到端的社交视觉-语言-动作(VLA)建模框架,旨在实现与3D自主角色的沉浸式互动。SOLAMI通过三个关键方面构建3D自主角色:统一的社交VLA架构、合成多模态社交互动数据集SynMSI以及沉浸式VR界面。广泛的定量实验和用户研究表明,SOLAMI生成的角色响应更精确、自然,符合用户期望,并且交互延迟更低。
例如,在一个虚拟现实(VR)环境中,用户可以通过语音和肢体语言与一个3D角色进行互动。用户可能会问角色:“你能给我展示一些舞蹈动作吗?”SOLAMI框架能够理解用户的语音指令和肢体语言,然后驱动3D角色以相应的动作和语言回应用户。
核心技术创新
1. 统一的社交VLA架构
SOLAMI的核心是一个统一的社交VLA框架,该框架能够基于用户的多模态输入(如语音、文本、手势等)生成相应的多模态响应(包括语音和动作),以驱动3D角色进行社交互动。具体来说,SOLAMI的社交VLA架构由以下几个部分组成:
- 多模态感知:SOLAMI能够接收并处理来自用户的多种输入形式,包括语音、文本和手势等,确保角色能够全面理解用户的意图。
- 联合建模:SOLAMI将视觉、语言和动作信息进行联合建模,使得角色不仅能够理解用户的言语内容,还能根据情境和肢体语言做出适当的反应。
- 多模态生成:基于用户的输入,SOLAMI生成包含语音和动作的多模态响应,使角色的互动更加自然和生动。例如,当用户提问时,角色不仅会用语音回答,还会通过表情和手势增强沟通效果。
2. 合成多模态社交互动数据集 SynMSI
为了克服现有数据稀缺的问题,研究人员开发了SynMSI——一个由自动管道生成的合成多模态社交互动数据集。SynMSI仅使用现有的动作数据集作为基础,通过自动化工具生成丰富的多模态数据,包括语音、文本和动作。这使得SOLAMI能够在大量多样化的场景中进行训练,从而提高其泛化能力和适应性。
- 数据生成:SynMSI利用现有的动作数据集,结合自然语言处理技术和计算机图形学,生成包含丰富社交互动场景的多模态数据。
- 多样化场景:SynMSI涵盖了多种社交情境,如问候、讨论、合作等,确保SOLAMI能够应对各种复杂的互动需求。
- 高质量数据:通过精细的后处理和优化,SynMSI生成的数据质量高,能够真实反映人类社交互动的特点。
3. 沉浸式VR界面
为了提供更加真实的互动体验,研究人员开发了一个沉浸式VR界面,使用户能够与由SOLAMI驱动的3D角色进行自然的互动。这个VR界面具有以下特点:
- 实时交互:用户可以通过语音、手势和其他输入方式与角色实时互动,获得即时反馈。
- 自然感知:VR界面模拟了真实的社交环境,用户可以感受到角色的存在感和互动的真实性。
- 灵活定制:用户可以根据自己的需求和偏好,定制角色的外观、行为和互动方式,增强个性化体验。
主要功能
SOLAMI的主要功能包括:
- 社交VLA架构:提出一个统一的社交VLA框架,根据用户的多模态输入(语音和动作)生成角色的多模态响应(语音和动作)。
- 交互式多模态数据:介绍了一个名为SynMSI的合成多模态社交互动数据集,该数据集通过自动流水线使用现有的动作数据集生成,解决了数据稀缺问题。
- 沉浸式VR界面:开发了一个VR界面,使用户能够与这些角色进行沉浸式交互。
主要特点
- 端到端建模:SOLAMI采用端到端的建模方法,可以直接从用户的语音和动作输入中学习角色的行为模式,并以低延迟提供响应。
- 数据合成方法:利用现有的文本-动作数据集自动构建多模态交互数据,降低了数据收集的成本。
- 多模态交互:SOLAMI支持语音和动作的多模态输入,使得角色能够更自然地与用户进行交互。
工作原理
SOLAMI的工作原理基于以下几个步骤:
- 输入处理:用户的语音和动作通过运动分词器和语音分词器转换为离散的运动令牌和语音令牌。
- LLM背板:使用一个仅解码器的大型语言模型(LLM)根据用户的输入令牌和角色设置预测角色的输出动作和语音令牌。
- 令牌解码:生成的令牌通过相应的解码器解码成角色的语音和动作。
- 训练策略:SOLAMI采用三阶段训练策略,包括分词器训练、多任务预训练以实现模态对齐,以及指令调整以处理多轮对话。
性能优势
SOLAMI的主要贡献包括:
- 更精确和自然的响应:实验结果显示,SOLAMI生成的角色响应在语音和动作上更加精确和自然,能够更好地符合用户的期望。
- 低延迟交互:SOLAMI显著降低了交互延迟,使得用户与角色之间的互动更加流畅和实时。
- 无需大量真实数据:通过SynMSI合成数据集,SOLAMI解决了数据稀缺问题,能够在有限的真实数据基础上实现高性能。
- 广泛适用性:SOLAMI适用于多种应用场景,包括但不限于虚拟现实、游戏开发、教育和培训等领域。
实验验证与应用前景
研究人员对SOLAMI进行了广泛的定量实验和用户研究,结果表明,SOLAMI在多个基准测试中均表现出色,特别是在生成自然的多模态响应和降低交互延迟方面。此外,用户研究显示,参与者普遍认为SOLAMI驱动的角色更加逼真和互动性强,提升了整体的沉浸感和用户体验。
评论0