SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态大语言模型

    共 30 篇文章
    排序
    发布更新浏览点赞
    多模态大语言模型Oryx:专门设计用于理解和处理视觉数据,如图像、视频和3D场景

    多模态大语言模型Oryx:专门设计用于理解和处理视觉数据,如图像、视频和3D场景

    清华大学、腾讯和南洋理工大学 S-Lab的研究人员推出多模态大语言模型Oryx,它专门设计用于理解和处理视觉数据,如图像、视频和3D场景。Oryx模型的特点是能够根据需要处理任意空间大小和时间长度的视...
    新技术# Oryx# 多模态大语言模型
    1年前
    06230
    新型多模态大语言模型INF-LLaVA:专门设计用于处理高分辨率图像,以提高模型对视觉和语言信息的理解能力

    新型多模态大语言模型INF-LLaVA:专门设计用于处理高分辨率图像,以提高模型对视觉和语言信息的理解能力

    厦门大学的研究人员推出新型多模态大语言模型INF-LLaVA,它专门设计用于处理高分辨率图像,以提高模型对视觉和语言信息的理解能力。在人工智能领域,处理高分辨率图像一直是一个挑战,因为这些图像包含的细...
    新技术# INF-LLaVA# 多模态大语言模型
    2年前
    06270
    基于 SEED-X 的新型多模态大语言模型SEED-Story:根据用户提供的文本和图片生成长篇的图文故事

    基于 SEED-X 的新型多模态大语言模型SEED-Story:根据用户提供的文本和图片生成长篇的图文故事

    香港科技大学(广州)、腾讯、香港中文大学和香港科技大学的研究人员推出新型多模态大语言模型SEED-Story,它能够根据用户提供的文本和图片生成长篇的多模态故事。这些故事不仅包含丰富的叙事文本,还包括...
    新技术# SEED-Story# 图文故事# 多模态大语言模型
    2年前
    01,1240
    多模态大语言模型Groma:具备精细化和定位化的视觉感知能力

    多模态大语言模型Groma:具备精细化和定位化的视觉感知能力

    来自香港大学和字节跳动的研究人员推出多模态大语言模型Groma,它具备精细化和定位化的视觉感知能力。Groma不仅能够理解整个图像的内容,还能处理区域级别的任务,比如区域字幕(region capti...
    新技术# Groma# 多模态大语言模型
    2年前
    06540
    多模态大语言模型LITA:专门设计来处理视频中的时间定位问题

    多模态大语言模型LITA:专门设计来处理视频中的时间定位问题

    英伟达推出多模态大语言模型LITA(Language Instructed Temporal-Localization Assistant),它专门设计来处理视频中的时间定位问题。 GitHub 论文...
    新技术# LITA# 多模态大语言模型
    2年前
    08150
    多模态问答系统Lumos:结合场景文本识别和多模态大语言模型

    多模态问答系统Lumos:结合场景文本识别和多模态大语言模型

    来自Meta Reality Labs的研究人员推出了多模态问答系统Lumos,这是一个结合了场景文本识别(Scene Text Recognition, STR)和多模态大语言模型(Multimod...
    新技术# Lumos# 场景文本识别# 多模态大语言模型
    2年前
    05830
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    A股智能分析系统

    A股智能分析系统

    A股智能分析系统是基于 AI 大模型的 A 股自选股智能分析系统,每日自动分析并推送「决策仪表盘」到企业微信/飞书/Telegram/邮箱
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    3D Arena

    3D Arena

    Hugging Face 推出的 3D Arena 是生成式 3D 领域的一项重要进展。它首次实现了大规模、结构化的人类偏好数据收集,并通过 ELO 排名系统提供可靠、可解释的模型评估结果。
    Fireplexity

    Fireplexity

    Fireplexity v2 是一个基于 Next.js 构建的 AI 驱动搜索引擎,结合了网络爬取、新闻聚合和图像搜索功能,并提供对话式 AI 响应。系统通过多个外部 API 处理用户查询,并通过类似聊天的界面以实时流式传输方式呈现结果。
    BuildCores

    BuildCores

    BuildCores 是一款集 3D 组装预览、智能兼容性检测、全球比价 于一体的在线装机工具。无论你是首次装机的新手,还是追求极致性能的发烧友,都能在手机或电脑上轻松规划、验证并优化你的 PC 配置。
    查看完整榜单