多模态大语言模型Lyra:专注于增强多模态能力,特别是高级长语音理解、声音理解、跨模态效率和无缝语音交互

随着多模态大语言模型(MLLMs)的发展,扩展到单一领域之外的能力对于满足更通用和高效AI的需求至关重要。然而,之前的全模态模型在语音处理方面存在不足,忽视了其与视觉、文本等其他模态的深度整合。为了解...
2周前
01260

新型多模态大语言模型PUMA:不仅能理解文本指令,还能根据这些指令创作出精细的图像,或者对现有图像进行精确的编辑

近年来,多模态基础模型在视觉-语言理解领域取得了显著进展,同时也开始探索多模态大语言模型(MLLMs)在视觉内容生成方面的潜力。然而,现有的工作在统一MLLM范式中处理不同图像生成任务的多样化粒度需求...
4个月前
02370