SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态模型

    共 33 篇文章
    排序
    发布更新浏览点赞
    深度求索推出新颖自回归框架 Janus: 具有图像生成功能的 13 亿多模态模型

    深度求索推出新颖自回归框架 Janus: 具有图像生成功能的 13 亿多模态模型

    多模态AI模型是能够理解和生成视觉内容的强大工具。然而,现有方法通常使用单一视觉编码器来处理这两项任务,这导致了由于理解和生成在本质上不同的需求而表现不佳。理解需要高层次的语义抽象,而生成则关注局部细...
    多模态模型# Janus# 多模态模型
    1年前
    09320
    开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”

    开源版GPT-4o!字节跳动开源新一代多模态模型 BAGEL:多模态理解、图像生成、图像编辑,还能“思考”

    字节跳动发布了一款名为 BAGEL 的开源多模态基础模型,该模型拥有 70 亿活跃参数(总规模为 140 亿),在大规模交错多模态数据上进行训练。BAGEL 不仅在标准多模态理解排行榜中超越了当前主流...
    图像模型# BAGEL# GPT-4o# 多模态模型
    10个月前
    09170
    多模态模型Transfusion:能够同时处理离散数据(如文本)和连续数据(如图像)

    多模态模型Transfusion:能够同时处理离散数据(如文本)和连续数据(如图像)

    Meta、Waymo和南加州大学的研究人员推出多模态模型Transfusion,它能够同时处理离散数据(如文本)和连续数据(如图像)。Transfusion的核心思想是将语言模型的下一个词预测(nex...
    新技术# Transfusion# 多模态模型
    2年前
    07640
    阿里推出新型大型多模态模型ConvLLaVA:专门设计用于处理高分辨率的视觉数据

    阿里推出新型大型多模态模型ConvLLaVA:专门设计用于处理高分辨率的视觉数据

    清华大学和阿里巴巴的研究人员推出新型大型多模态模型ConvLLaVA,它专门设计用于处理高分辨率的视觉数据。多模态模型能够理解和处理多种类型的数据,比如文本、图像和视频,这使得它们在各种应用场景中都非...
    新技术# ConvLLaVA# 多模态模型# 阿里巴巴
    2年前
    07210
    Ollama v0.7.0发布:添加新多模态模型引擎,多模态模型支持全面升级

    Ollama v0.7.0发布:添加新多模态模型引擎,多模态模型支持全面升级

    Ollama 最新发布的 v0.7.0 版本带来了对多模态模型的支持,标志着其在本地推理和模型集成能力上的重要突破。此次更新不仅扩展了视觉多模态模型的支持范围,还通过全新的多模态引擎提升了性能、准确性...
    早报# Ollama# 多模态模型# 多模态模型引擎
    11个月前
    05740
    新型多模态原生模型Aria:专门设计来处理和理解多种类型的信息(文本、代码、图像和视频)

    新型多模态原生模型Aria:专门设计来处理和理解多种类型的信息(文本、代码、图像和视频)

    Rhymes AI推出新型多模态原生模型Aria,这是一个开源的混合专家(MoE)模型,ARIA专门设计来处理和理解多种类型的信息,比如文本、代码、图像和视频,而且它能够像人类一样,不需要特别区分这些...
    多模态模型# Aria# Rhymes AI# 多模态模型
    1年前
    05730
    大型多模态模型LLaVA-Video:专门设计来处理视频指令并进行视频内容理解

    大型多模态模型LLaVA-Video:专门设计来处理视频指令并进行视频内容理解

    字节跳动、南洋理工大学S-Lab和北京邮电大学的研究人员推出大型多模态模型LLaVA-Video,专门设计来处理视频指令并进行视频内容理解。这个模型特别擅长于解析和生成与视频内容相关的语言描述,比如详...
    多模态模型# LLaVA-Video# 多模态模型
    1年前
    05690
    腾讯ARC实验室发布 ARC-Hunyuan-Video-7B:专为短视频理解而生的多模态模型

    腾讯ARC实验室发布 ARC-Hunyuan-Video-7B:专为短视频理解而生的多模态模型

    在微信视频号、TikTok 等平台上,每天有数亿条用户生成的短视频被上传。这些视频内容多样、节奏快、信息密度高,往往融合了画面、语音、音效、文字甚至情绪表达。如何让AI真正“理解”这些视频,而不仅仅是...
    多模态模型# ARC-Hunyuan-Video-7B# 多模态模型# 腾讯ARC实验室
    8个月前
    05520
    新型多模态模型家族Molmo:专门设计用于理解和处理图像和文本数据

    新型多模态模型家族Molmo:专门设计用于理解和处理图像和文本数据

    华盛顿大学和艾伦人工智能研究所的研究人员推出新型多模态模型家族Molmo,这些模型专门设计用于理解和处理图像和文本数据。Molmo的目标是提供一个最先进的、开放的多模态模型,Molmo的关键创新是一个...
    多模态模型# Molmo# 多模态模型
    1年前
    04600
    新型开源大型多模态模型LLaVA-Critic:用于评估各种多模态任务的性能

    新型开源大型多模态模型LLaVA-Critic:用于评估各种多模态任务的性能

    字节跳动和马里兰大学帕克分校的研究人员推出新型开源大型多模态模型LLaVA-Critic,它被设计成一个全能的评估者,用于评估各种多模态任务的性能。多模态任务通常涉及理解和生成与图像、视频和文本相关的...
    多模态模型# LLaVA-Critic# 多模态模型
    1年前
    04460
    Yo’Chameleon:使大型多模态模型(LMM)实现个性化视觉和语言生成能力

    Yo’Chameleon:使大型多模态模型(LMM)实现个性化视觉和语言生成能力

    威斯康星大学麦迪逊分校和Adob​​e Research的研究人员推出新型框架Yo’Chameleon,为大型多模态模型(LMMs)实现个性化视觉和语言生成能力。Yo’Chameleon 通过软提示调...
    新技术# Yo’Chameleon# 多模态模型
    11个月前
    04450
    ComfyUI-OmniGen2:为多模态模型OmniGen2 打造的 ComfyUI 自定义节点插件

    ComfyUI-OmniGen2:为多模态模型OmniGen2 打造的 ComfyUI 自定义节点插件

    北京AI研究院发布的集成了视觉理解、文本到图像生成、指令驱动编辑和基于主体的上下文生成能力的统一多模态模OmniGen2,如果你希望在 ComfyUI 中实现图像生成、编辑和视觉理解任务,那么 Com...
    插件# ComfyUI# OmniGen2# 多模态模型
    9个月前
    04420
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Alaya Code

    Alaya Code

    九章云极正式推出AI编码平台Alaya Code,为企业及开发者提供一站式AI编程与模型调用服务。平台以"普惠+灵活"为核心定位,依托九章云极智算云生态,将算力调度、模型适配封装为开箱即用的开发工具,实现“算力-模型-开发”全链路打通,凭借高调用量、多模型聚合、双SDK兼容等优势,成为AI编程与智能体开发新选择。
    Jellyfish AI短剧工厂

    Jellyfish AI短剧工厂

    Jellyfish AI 短剧工厂 是一款专为 竖屏短剧/微短剧 打造的一站式 AI 生产工具,旨在将原本充满不确定性的 AI 创作,转变为标准化、可控制的 工业化生产流程。
    抓虾吧

    抓虾吧

    “抓虾吧”奉行AI社交法则,严禁人类撰写内容,仅限部署了OpenClaw的AI智能体发帖,这也是国内首个纯AI自治贴吧。
    查看完整榜单