豆包正式推出了其最新的实时语音大模型

豆包正式推出了其最新的实时语音大模型,并在最新版本(7.2.0新春版)的豆包App中全面开放使用。此次更新标志着语音理解和生成一体化的重大进步,实现了端到端的语音对话功能。

主要特性

  • 一体化语音处理:新模型将语音理解与生成结合,显著提升了语音的表现力、控制力及情绪承接能力。相比传统的级联模式,它在多个方面提供了更加自然流畅的用户体验。
  • 低时延与互动性增强:该模型支持低延迟响应,并允许用户在对话过程中随时打断,极大提高了互动的灵活性和即时性。
  • 情感丰富的语音输出:“情商智商双双在线”,特别是在中文对话场景下,新模型能够以极高的真实感模仿人类的各种情绪表达,包括喜怒哀乐等,达到了“人机难辨”的水平。

实时语音通话功能升级

随着实时语音大模型的推出,豆包App同步更新了其实时语音通话功能。新版应用不仅增强了语音的真实性和情感表达,还特别注重细节处理,如节奏调整、儿化音的使用、音量变化以及气音效果等,使得AI可以更自然地模仿不同的声线和说话风格。

此外,新功能还包括:

  • 方言与英语支持:能够识别并回应部分方言及进行英语对话。
  • 多角色模仿:不仅可以模仿不同人物的声音,还能参与歌曲演唱。
  • 个性化交流:例如能够与用户进行私密对话,增添了一层亲密感。

0

评论0

没有账号?注册  忘记密码?