SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    多模态大语言模型

    共 30 篇文章
    排序
    发布更新浏览点赞
    多模态大语言模型Oryx:专门设计用于理解和处理视觉数据,如图像、视频和3D场景

    多模态大语言模型Oryx:专门设计用于理解和处理视觉数据,如图像、视频和3D场景

    清华大学、腾讯和南洋理工大学 S-Lab的研究人员推出多模态大语言模型Oryx,它专门设计用于理解和处理视觉数据,如图像、视频和3D场景。Oryx模型的特点是能够根据需要处理任意空间大小和时间长度的视...
    新技术# Oryx# 多模态大语言模型
    1年前
    06000
    新型多模态大语言模型INF-LLaVA:专门设计用于处理高分辨率图像,以提高模型对视觉和语言信息的理解能力

    新型多模态大语言模型INF-LLaVA:专门设计用于处理高分辨率图像,以提高模型对视觉和语言信息的理解能力

    厦门大学的研究人员推出新型多模态大语言模型INF-LLaVA,它专门设计用于处理高分辨率图像,以提高模型对视觉和语言信息的理解能力。在人工智能领域,处理高分辨率图像一直是一个挑战,因为这些图像包含的细...
    新技术# INF-LLaVA# 多模态大语言模型
    1年前
    06160
    基于 SEED-X 的新型多模态大语言模型SEED-Story:根据用户提供的文本和图片生成长篇的图文故事

    基于 SEED-X 的新型多模态大语言模型SEED-Story:根据用户提供的文本和图片生成长篇的图文故事

    香港科技大学(广州)、腾讯、香港中文大学和香港科技大学的研究人员推出新型多模态大语言模型SEED-Story,它能够根据用户提供的文本和图片生成长篇的多模态故事。这些故事不仅包含丰富的叙事文本,还包括...
    新技术# SEED-Story# 图文故事# 多模态大语言模型
    1年前
    01,0230
    多模态大语言模型Groma:具备精细化和定位化的视觉感知能力

    多模态大语言模型Groma:具备精细化和定位化的视觉感知能力

    来自香港大学和字节跳动的研究人员推出多模态大语言模型Groma,它具备精细化和定位化的视觉感知能力。Groma不仅能够理解整个图像的内容,还能处理区域级别的任务,比如区域字幕(region capti...
    新技术# Groma# 多模态大语言模型
    2年前
    06460
    多模态大语言模型LITA:专门设计来处理视频中的时间定位问题

    多模态大语言模型LITA:专门设计来处理视频中的时间定位问题

    英伟达推出多模态大语言模型LITA(Language Instructed Temporal-Localization Assistant),它专门设计来处理视频中的时间定位问题。 GitHub 论文...
    新技术# LITA# 多模态大语言模型
    2年前
    07840
    多模态问答系统Lumos:结合场景文本识别和多模态大语言模型

    多模态问答系统Lumos:结合场景文本识别和多模态大语言模型

    来自Meta Reality Labs的研究人员推出了多模态问答系统Lumos,这是一个结合了场景文本识别(Scene Text Recognition, STR)和多模态大语言模型(Multimod...
    新技术# Lumos# 场景文本识别# 多模态大语言模型
    2年前
    05740
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    OpenStock

    OpenStock

    OpenStock 是昂贵市场平台的开源替代品。追踪实时价格、设置个性化提醒并探索详细的公司洞察——公开构建,为所有人服务,永久免费。
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    On-Device AI

    On-Device AI

    On-Device AI 为苹果用户提供了一种全新的 AI 使用方式,无需网络连接,即可随时随地享受 AI 的强大功能。它不仅保护了您的隐私,还通过本地运行提升了性能和效率。
    Poe

    Poe

    Poe 不仅仅是一个聊天应用,它是一个集成了多模型互动、自定义应用创建和多样化工具的综合性平台。无论是希望通过多种 AI 模型解决问题的用户,还是希望探索 AI 创造力的开发者,Poe 都提供了丰富的可能性。
    DiffRhythm(谛韵)

    DiffRhythm(谛韵)

    DiffRhythm(中文名“谛韵”)是由西北工业大学音频、语音与语言处理研究组(ASLP Lab)和香港中文大学(深圳)深圳大数据研究院联合开发的新型端到端全长度歌曲生成模型。基于潜扩散(Latent Diffusion)技术,DiffRhythm 能够快速生成包含人声和伴奏的完整歌曲,解决了现有音乐生成方法的诸多局限性。
    查看完整榜单