英伟达推出多模态大语言模型Describe Anything 3B:为图像和视频局部描述量身定制的多模态 AI 模型英伟达、加州大学伯克利分校和加州大学旧金山分校的研究人员推出了 Describe Anything 3B (DAM-3B),这是一个专门用于生成细粒度图像和视频字幕的多模态大语言模型(LLM)。DAM...多模态模型# Describe Anything 3B# 多模态大语言模型# 英伟达3周前02230
字节跳动推出多模态大语言模型ChatTS:专门用于时间序列分析清华大学和字节跳动的研究人员推出多模态大语言模型ChatTS ,专门用于时间序列分析。它通过自然语言命令帮助用户快速理解时间序列数据,执行日常任务,并处理复杂的推理问题。ChatTS 的核心优势在于其...多模态模型# ChatTS# 多模态大语言模型# 字节跳动4周前0490
拥有20亿参数的多模态大语言模型Open-Qwen2VL在多模态大语言模型(MLLMs)的研究与应用中,视觉与文本模态的融合正在不断拓展其边界,从图像描述到视觉问答,再到复杂文档的解读,这些模型展现出了强大的能力。然而,这一领域的进一步发展面临着诸多挑战...多模态模型# Open-Qwen2VL# 多模态大语言模型1个月前0560
腾讯推出AnimeGamer:通过多模态大语言模型实现无限动漫生活模拟近年来,图像和视频合成技术的发展为生成游戏带来了新的可能性。特别是将动漫电影中的角色转化为可互动、可玩的实体,让玩家能够以自己喜爱的角色身份沉浸在动态的动漫世界中,通过语言指令进行生活模拟。这种游戏被...多模态模型# AnimeGamer# 多模态大语言模型# 无限动漫生活模拟1个月前01120
增强版多模态大语言模型ILLUME+ :通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力近年来,多模态大语言模型(MLLMs)在图像理解、生成和编辑任务中取得了显著进展。然而,现有的统一模型在同时处理这三种任务时面临挑战。例如,早期的模型(如 Chameleon 和 EMU3)使用 VQ...多模态模型# ILLUME# 图像生成# 多模态大语言模型1个月前01140
StarVector:利用多模态大语言模型(MLLM)从图像和文本生成SVG代码ServiceNow Research、魁北克人工智能研究所、加拿大 CIFAR 人工智能主席、不列颠哥伦比亚大学、高等工程技术学院和苹果的研究人员推出StarVector,利用多模态大语言模型(ML...图像模型# StarVector# SVG代码# 多模态大语言模型2个月前01150
DeepPerception:通过结合知识和推理能力,提升多模态大语言模型在细粒度视觉识别任务中的表现澳门大学、清华大学、西北工业大学和山东大学的研究人员推出DeepPerception,在多模态大语言模型(MLLMs)中推进类似R1的认知视觉感知,用于知识密集型视觉定位。这项研究旨在通过结合知识和推...新技术# DeepPerception# 多模态大语言模型2个月前0680
多模态大语言模型Omni-RGPT:在统一图像和视频的区域级理解英伟达和延世大学的研究人员推出多模态大语言模型Omni-RGPT,旨在统一图像和视频的区域级理解。Omni-RGPT通过一种新颖的区域表示方法——Token Mark,实现了对图像和视频中特定区域的深...新技术# Omni-RGPT# 多模态大语言模型4个月前01360
新型多模态大语言模型Sa2VA:将 SAM2 与 LLaVA相结合,实现对图像和视频的深入理解加州大学默塞德分校、字节跳动、武汉大学和北京大学的研究人员推出新型多模态大语言模型Sa2VA,它将SAM-2视频分割模型与LLaVA视觉-语言模型相结合,实现了对图像和视频的密集、基于语义的理解。Sa...多模态模型# Sa2VA# 多模态大语言模型3个月前01530
任务偏好优化TPO:通过视觉任务对齐来提升多模态大语言模型的性能上海人工智能实验室、浙江大学、中国科学技术大学、上海交通大学、中国科学院深圳先进技术研究院和南京大学的研究人员推出一种名为任务偏好优化(Task Preference Optimization, TP...新技术# TPO# 任务偏好优化# 多模态大语言模型5个月前01660
OLA-VLM:提升多模态大语言模型中的视觉感知能力开发当代多模态大语言模型(MLLMs)的标准做法是将视觉编码器的特征输入到大型语言模型(LLM)中,并通过自然语言监督进行训练。然而,这种方法存在一个潜在的局限性:仅依赖自然语言监督对于MLLM的视觉...新技术# OLA-VLM# 多模态大语言模型5个月前01650
多模态大语言模型Lyra:专注于增强多模态能力,特别是高级长语音理解、声音理解、跨模态效率和无缝语音交互随着多模态大语言模型(MLLMs)的发展,扩展到单一领域之外的能力对于满足更通用和高效AI的需求至关重要。然而,之前的全模态模型在语音处理方面存在不足,忽视了其与视觉、文本等其他模态的深度整合。为了解...多模态模型# Lyra# 多模态大语言模型3个月前01790