SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态模型

    共 32 篇文章
    排序
    发布更新浏览点赞
    Yo’Chameleon:使大型多模态模型(LMM)实现个性化视觉和语言生成能力

    Yo’Chameleon:使大型多模态模型(LMM)实现个性化视觉和语言生成能力

    威斯康星大学麦迪逊分校和Adob​​e Research的研究人员推出新型框架Yo’Chameleon,为大型多模态模型(LMMs)实现个性化视觉和语言生成能力。Yo’Chameleon 通过软提示调...
    新技术# Yo’Chameleon# 多模态模型
    9个月前
    03810
    字节跳动推出多模态模型Vidi:专门用于视频理解和编辑

    字节跳动推出多模态模型Vidi:专门用于视频理解和编辑

    字节跳动推出多模态模型Vidi,专门用于视频理解和编辑。Vidi 的主要目标是支持高质量、大规模视频内容的创作,通过处理原始输入材料(如未编辑的视频片段)和编辑组件(如视觉效果),帮助用户更高效地完成...
    多模态模型# Vidi# 多模态模型# 字节跳动
    9个月前
    02130
    阿里通义实验室发布新一代端到端多模态旗舰模型Qwen2.5-Omni

    阿里通义实验室发布新一代端到端多模态旗舰模型Qwen2.5-Omni

    阿里通义实验室发布了 Qwen2.5-Omni,这是 Qwen 模型家族中的新一代端到端多模态旗舰模型。Qwen2.5-Omni 专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入...
    多模态模型# Qwen2.5-Omni# 多模态模型
    10个月前
    02630
    阿里通义实验室开源32B参数的多模态模型 Qwen2.5-VL-32B-Instruct

    阿里通义实验室开源32B参数的多模态模型 Qwen2.5-VL-32B-Instruct

    今年一月底,阿里通义实验室推出了 Qwen2.5-VL 系列模型,凭借其卓越的性能和广泛的应用潜力,迅速获得了社区的广泛关注和积极反馈。在此基础上,团队通过强化学习持续优化模型,并于近期开源了备受期待...
    多模态模型# Qwen2.5-VL-32B-Instruct# 多模态模型# 阿里通义实验室
    10个月前
    03040
    新型图像生成框架DREAM ENGINE:结合多模态模型和扩散模型,实现复杂文本-图像交错控制的图像生成任务

    新型图像生成框架DREAM ENGINE:结合多模态模型和扩散模型,实现复杂文本-图像交错控制的图像生成任务

    北京大学、阿里巴巴集团、华盛顿大学、北京理工大学和百安斯实验室的研究人员推出新型图像生成框架 DREAM ENGINE,它通过两阶段训练方法,将 QwenVL 等多模态编码器与扩散模型集成在一起,从而...
    图像模型# DREAM ENGINE# 图像生成# 多模态模型
    11个月前
    03230
    首个截图就能生成现代前端代码的多模态模型Flame

    首个截图就能生成现代前端代码的多模态模型Flame

    尽管前沿的多模态模型(如 GPT-4O)在代码生成上展现了强大的能力,但它们在真实的前端开发场景中仍无法满足现代前端工作流程的动态需求。这些模型虽然能够生成代码,但输出的前端代码通常是静态的,缺乏模块...
    多模态模型# Flame# 前端代码# 多模态模型
    11个月前
    03930
    Hugging Face 发布轻量级多模态模型SmolVLM2:专为视频内容分析而设计

    Hugging Face 发布轻量级多模态模型SmolVLM2:专为视频内容分析而设计

    Hugging Face 最新发布了一款轻量级多模态模型SmolVLM2,专为视频内容分析而设计。该模型以高效性和适应性为核心目标,旨在将视频理解能力扩展到从手机到服务器的各种设备上。SmolVLM2...
    多模态模型# Hugging Face# SmolVLM2# 多模态模型
    11个月前
    02840
    新型多模态模型家族Molmo:专门设计用于理解和处理图像和文本数据

    新型多模态模型家族Molmo:专门设计用于理解和处理图像和文本数据

    华盛顿大学和艾伦人工智能研究所的研究人员推出新型多模态模型家族Molmo,这些模型专门设计用于理解和处理图像和文本数据。Molmo的目标是提供一个最先进的、开放的多模态模型,Molmo的关键创新是一个...
    多模态模型# Molmo# 多模态模型
    12个月前
    04500
    智源研究院推出全新多模态系列模型Emu3

    智源研究院推出全新多模态系列模型Emu3

    智源研究院推出Emu3,这是一个全新的多模态系列模型,它仅使用下一个词元(Token)预测这一建模范式进行训练,达到了最先进的水平。Emu3 通过一个 Transformer 模型在视频、图像和文本令...
    多模态模型# Emu3# 多模态模型# 智源研究院
    12个月前
    04210
    新型开源大型多模态模型LLaVA-Critic:用于评估各种多模态任务的性能

    新型开源大型多模态模型LLaVA-Critic:用于评估各种多模态任务的性能

    字节跳动和马里兰大学帕克分校的研究人员推出新型开源大型多模态模型LLaVA-Critic,它被设计成一个全能的评估者,用于评估各种多模态任务的性能。多模态任务通常涉及理解和生成与图像、视频和文本相关的...
    多模态模型# LLaVA-Critic# 多模态模型
    12个月前
    04420
    大型多模态模型LLaVA-Video:专门设计来处理视频指令并进行视频内容理解

    大型多模态模型LLaVA-Video:专门设计来处理视频指令并进行视频内容理解

    字节跳动、南洋理工大学S-Lab和北京邮电大学的研究人员推出大型多模态模型LLaVA-Video,专门设计来处理视频指令并进行视频内容理解。这个模型特别擅长于解析和生成与视频内容相关的语言描述,比如详...
    多模态模型# LLaVA-Video# 多模态模型
    12个月前
    05600
    新型多模态原生模型Aria:专门设计来处理和理解多种类型的信息(文本、代码、图像和视频)

    新型多模态原生模型Aria:专门设计来处理和理解多种类型的信息(文本、代码、图像和视频)

    Rhymes AI推出新型多模态原生模型Aria,这是一个开源的混合专家(MoE)模型,ARIA专门设计来处理和理解多种类型的信息,比如文本、代码、图像和视频,而且它能够像人类一样,不需要特别区分这些...
    多模态模型# Aria# Rhymes AI# 多模态模型
    12个月前
    05430
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Awesome Clawdbot(Moltbot) Skills

    新Awesome Clawdbot(Moltbot) Skills

    社区维护了一份名为 Awesome Clawdbot (Moltbot) Skills 的精选技能集合。该列表收录了 565 项以上 来自 ClawdHub(Moltbot 官方公共技能注册表)的技能,并按功能类别组织,便于浏览与安装。
    查看完整榜单