SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态大语言模型

    共 30 篇文章
    排序
    发布更新浏览点赞
    多模态大语言模型Omni-RGPT:在统一图像和视频的区域级理解

    多模态大语言模型Omni-RGPT:在统一图像和视频的区域级理解

    英伟达和延世大学的研究人员推出多模态大语言模型Omni-RGPT,旨在统一图像和视频的区域级理解。Omni-RGPT通过一种新颖的区域表示方法——Token Mark,实现了对图像和视频中特定区域的深...
    新技术# Omni-RGPT# 多模态大语言模型
    1年前
    02580
    新型多模态大语言模型Sa2VA:将 SAM2 与 LLaVA相结合,实现对图像和视频的深入理解

    新型多模态大语言模型Sa2VA:将 SAM2 与 LLaVA相结合,实现对图像和视频的深入理解

    加州大学默塞德分校、字节跳动、武汉大学和北京大学的研究人员推出新型多模态大语言模型Sa2VA,它将SAM-2视频分割模型与LLaVA视觉-语言模型相结合,实现了对图像和视频的密集、基于语义的理解。Sa...
    多模态模型# Sa2VA# 多模态大语言模型
    1年前
    02790
    任务偏好优化TPO:通过视觉任务对齐来提升多模态大语言模型的性能

    任务偏好优化TPO:通过视觉任务对齐来提升多模态大语言模型的性能

    上海人工智能实验室、浙江大学、中国科学技术大学、上海交通大学、中国科学院深圳先进技术研究院和南京大学的研究人员推出一种名为任务偏好优化(Task Preference Optimization, TP...
    新技术# TPO# 任务偏好优化# 多模态大语言模型
    1年前
    03340
    OLA-VLM:提升多模态大语言模型中的视觉感知能力

    OLA-VLM:提升多模态大语言模型中的视觉感知能力

    开发当代多模态大语言模型(MLLMs)的标准做法是将视觉编码器的特征输入到大型语言模型(LLM)中,并通过自然语言监督进行训练。然而,这种方法存在一个潜在的局限性:仅依赖自然语言监督对于MLLM的视觉...
    新技术# OLA-VLM# 多模态大语言模型
    1年前
    02750
    多模态大语言模型Lyra:专注于增强多模态能力,特别是高级长语音理解、声音理解、跨模态效率和无缝语音交互

    多模态大语言模型Lyra:专注于增强多模态能力,特别是高级长语音理解、声音理解、跨模态效率和无缝语音交互

    随着多模态大语言模型(MLLMs)的发展,扩展到单一领域之外的能力对于满足更通用和高效AI的需求至关重要。然而,之前的全模态模型在语音处理方面存在不足,忽视了其与视觉、文本等其他模态的深度整合。为了解...
    多模态模型# Lyra# 多模态大语言模型
    1年前
    03010
    华为诺亚方舟实验室推出多模态大语言模型ILLUME

    华为诺亚方舟实验室推出多模态大语言模型ILLUME

    华为诺亚方舟实验室发布多模态大语言模型ILLUME,旨在无缝集成图像和文本的理解与生成。ILLUME凭借其创新的架构和训练策略,在显著减少预训练所需数据量的同时,达到了最先进的性能。ILLUME基于统...
    新技术# ILLUME# 华为诺亚方舟实验室# 多模态大语言模型
    1年前
    02790
    多模态大语言模型InternVL 2.5:处理和理解来自多种模态(如文本、图像和视频)的信息

    多模态大语言模型InternVL 2.5:处理和理解来自多种模态(如文本、图像和视频)的信息

    InternVL 2.5 是由上海人工智能实验室、商汤科技研究院、清华大学、南京大学、复旦大学、香港中文大学和上海交通大学等多家机构联合推出的一款先进的多模态大语言模型(MLLM)。该模型基于此前发布...
    多模态模型# InternVL 2.5# 多模态大语言模型
    1年前
    02970
    微软推出全新多模态大语言模型家族Florence-VL

    微软推出全新多模态大语言模型家族Florence-VL

    马里兰大学和微软研究院的研究团队共同提出了Florence-VL,这是一个全新的多模态大语言模型(MLLMs)家族。Florence-VL的视觉表示由生成式视觉基础模型Florence-2生成,与传统...
    多模态模型# Florence-VL# 多模态大语言模型# 微软
    1年前
    03130
    多模态大语言模型ChatRex:提升对人类姿态的感知和理解能力

    多模态大语言模型ChatRex:提升对人类姿态的感知和理解能力

    IDEA的研究人员推出多模态大语言模型ChatRex,它旨在提升对人类姿态的感知和理解能力。ChatRex通过结合视觉和语言模型,能够执行多种与人体姿态相关任务,包括姿态理解、生成和编辑。这个模型特别...
    多模态模型# ChatRex# 多模态大语言模型
    1年前
    02770
    新型多模态大语言模型PUMA:不仅能理解文本指令,还能根据这些指令创作出精细的图像,或者对现有图像进行精确的编辑

    新型多模态大语言模型PUMA:不仅能理解文本指令,还能根据这些指令创作出精细的图像,或者对现有图像进行精确的编辑

    近年来,多模态基础模型在视觉-语言理解领域取得了显著进展,同时也开始探索多模态大语言模型(MLLMs)在视觉内容生成方面的潜力。然而,现有的工作在统一MLLM范式中处理不同图像生成任务的多样化粒度需求...
    百科# PUMA# 多模态大语言模型
    1年前
    04210
    阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B:能够同时处理和理解文本和视觉信息

    阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B:能够同时处理和理解文本和视觉信息

    Ovis1.6-Gemma2-9B是阿里国际推出的一款多模态大语言模型,Ovis是一种新颖的多模态大语言模型(MLLM)架构,旨在结构化地对齐视觉和文本嵌入。Ovis1.6-Gemma2-9B基于O...
    多模态模型# Ovis1.6-Gemma2-9B# 多模态大语言模型
    1年前
    05540
    多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed:经过指令调整的Qwen2-VL-7B-Instruct版本

    多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed:经过指令调整的Qwen2-VL-7B-Instruct版本

    Qwen2-VL-7B-Captioner-Relaxed 是 Qwen2-VL-7B-Instruct 的一个经过指令调整的版本,它是一个多模态大语言模型。这个经过精细调整的版本是基于一个为文生图模...
    多模态模型# Qwen2-VL-7B-Captioner-Relaxed# 多模态大语言模型
    1年前
    05820
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    QClaw

    新QClaw

    腾讯推出QClaw ,这是基于 OpenClaw 进行深度产品化封装的“官方一键安装包”。它的目标非常明确:让强大的 AI Agent 能力,像安装普通软件一样简单,并直接融入中国人的国民级应用——微信和 QQ。
    CoPaw

    CoPaw

    阿里云旗下阿里桌面 Agent 工具 CoPaw 正式开源,CoPaw 原生支持钉钉、飞书、QQ、Discord、iMessage 等聊天软件和平台,内置了多种 Skills,用户可一键本地部署也可通过阿里云计算巢和魔搭社区创空间实现一键云端部署,并调用千问系列等主流模型,是业界部署门槛最低的 Agent 工具之一。
    waoo

    waoo

    waoowaoo AI 影视 Studio 是一款基于 AI 技术的短剧/漫画视频制作工具,支持从小说文本自动生成分镜、角色、场景,并制作成完整视频。
    ArkClaw

    新ArkClaw

    字节旗下火山引擎正式上线 ArkClaw, 开箱即用的云上 SaaS 版 OpenClaw。无需任何复杂配置,打开网页即可使用 7×24 小时在线的 AI 助手。
    WorkBuddy

    新WorkBuddy

    WorkBuddy 是 AI 原生的桌面智能体工作台,以自然语言驱动办公自动化,一句指令即可完成数据处理、内容创作与深度分析,直接验收可交付结果,重塑职场效率标准。
    查看完整榜单