SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态模型

    共 229 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    字节跳动推出多模态模型Vidi:专门用于视频理解和编辑

    字节跳动推出多模态模型Vidi:专门用于视频理解和编辑

    字节跳动推出多模态模型Vidi,专门用于视频理解和编辑。Vidi 的主要目标是支持高质量、大规模视频内容的创作,通过处理原始输入材料(如未编辑的视频片段)和编辑组件(如视觉效果),帮助用户更高效地完成...
    多模态模型# Vidi# 多模态模型# 字节跳动
    11个月前
    02290
    英伟达推出多模态大语言模型Describe Anything 3B:为图像和视频局部描述量身定制的多模态 AI 模型

    英伟达推出多模态大语言模型Describe Anything 3B:为图像和视频局部描述量身定制的多模态 AI 模型

    英伟达、加州大学伯克利分校和加州大学旧金山分校的研究人员推出了 Describe Anything 3B (DAM-3B),这是一个专门用于生成细粒度图像和视频字幕的多模态大语言模型(LLM)。DAM...
    多模态模型# Describe Anything 3B# 多模态大语言模型# 英伟达
    11个月前
    06110
    字节跳动推出多模态大语言模型ChatTS:专门用于时间序列分析

    字节跳动推出多模态大语言模型ChatTS:专门用于时间序列分析

    清华大学和字节跳动的研究人员推出多模态大语言模型ChatTS ,专门用于时间序列分析。它通过自然语言命令帮助用户快速理解时间序列数据,执行日常任务,并处理复杂的推理问题。ChatTS 的核心优势在于其...
    多模态模型# ChatTS# 多模态大语言模型# 字节跳动
    11个月前
    02690
    月之暗面推出高效开源视觉-语言模型Kimi-VL

    月之暗面推出高效开源视觉-语言模型Kimi-VL

    随着AI技术的快速发展,视觉-语言模型(VLM)在多模态任务中的应用越来越广泛。然而,如何在保持高性能的同时降低计算成本,一直是研究者面临的挑战。近日,国内知名AI公司“月之暗面”推出了 一款高效的开...
    多模态模型# Kimi-VL# 月之暗面
    11个月前
    04310
    拥有20亿参数的多模态大语言模型Open-Qwen2VL

    拥有20亿参数的多模态大语言模型Open-Qwen2VL

    在多模态大语言模型(MLLMs)的研究与应用中,视觉与文本模态的融合正在不断拓展其边界,从图像描述到视觉问答,再到复杂文档的解读,这些模型展现出了强大的能力。然而,这一领域的进一步发展面临着诸多挑战...
    多模态模型# Open-Qwen2VL# 多模态大语言模型
    11个月前
    01900
    统一视觉自回归模型 VARGPT-v1.1:统一视觉理解和图像生成任务

    统一视觉自回归模型 VARGPT-v1.1:统一视觉理解和图像生成任务

    北京大学和香港中文大学的研究人员推出先进统一视觉自回归模型 VARGPT-v1.1 ,该模型在多模态理解和文本到图像生成任务中表现出色。它通过迭代指令微调和强化学习等创新训练策略,显著提升了模型的性能...
    多模态模型# VARGPT-v1.1# 统一视觉自回归模型
    12个月前
    04160
    腾讯推出AnimeGamer:通过多模态大语言模型实现无限动漫生活模拟

    腾讯推出AnimeGamer:通过多模态大语言模型实现无限动漫生活模拟

    近年来,图像和视频合成技术的发展为生成游戏带来了新的可能性。特别是将动漫电影中的角色转化为可互动、可玩的实体,让玩家能够以自己喜爱的角色身份沉浸在动态的动漫世界中,通过语言指令进行生活模拟。这种游戏被...
    多模态模型# AnimeGamer# 多模态大语言模型# 无限动漫生活模拟
    12个月前
    04680
    增强版多模态大语言模型ILLUME+ :通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力

    增强版多模态大语言模型ILLUME+ :通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力

    近年来,多模态大语言模型(MLLMs)在图像理解、生成和编辑任务中取得了显著进展。然而,现有的统一模型在同时处理这三种任务时面临挑战。例如,早期的模型(如 Chameleon 和 EMU3)使用 VQ...
    多模态模型# ILLUME# 图像生成# 多模态大语言模型
    12个月前
    05470
    阿里巴巴发布 QVQ-Max:能看、能理解、能思考的视觉推理模型

    阿里巴巴发布 QVQ-Max:能看、能理解、能思考的视觉推理模型

    阿里巴巴推出一款名为 QVQ-Max 的全新视觉推理模型,这是其 Qwen模型系列中的最新成员。QVQ-Max 的独特之处在于它能够理解照片和视频的内容,并对这些信息进行分析和推理,从而提供解决方案...
    多模态模型# QVQ-Max# 视觉推理模型# 阿里巴巴
    12个月前
    02830
    阿里通义实验室发布新一代端到端多模态旗舰模型Qwen2.5-Omni

    阿里通义实验室发布新一代端到端多模态旗舰模型Qwen2.5-Omni

    阿里通义实验室发布了 Qwen2.5-Omni,这是 Qwen 模型家族中的新一代端到端多模态旗舰模型。Qwen2.5-Omni 专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入...
    多模态模型# Qwen2.5-Omni# 多模态模型
    12个月前
    02660
    阿里通义实验室开源32B参数的多模态模型 Qwen2.5-VL-32B-Instruct

    阿里通义实验室开源32B参数的多模态模型 Qwen2.5-VL-32B-Instruct

    今年一月底,阿里通义实验室推出了 Qwen2.5-VL 系列模型,凭借其卓越的性能和广泛的应用潜力,迅速获得了社区的广泛关注和积极反馈。在此基础上,团队通过强化学习持续优化模型,并于近期开源了备受期待...
    多模态模型# Qwen2.5-VL-32B-Instruct# 多模态模型# 阿里通义实验室
    12个月前
    03220
    Roboflow开源基于Transformer的实时目标检测模型 RF-DETR

    Roboflow开源基于Transformer的实时目标检测模型 RF-DETR

    Roboflow 近日正式发布了 RF-DETR,一种基于Transformer的实时目标检测模型。RF-DETR 在多个现实世界数据集上的表现超越了所有现有的目标检测模型,并且是首个在 COCO 数...
    多模态模型# RF-DETR# Roboflow# 实时目标检测模型
    12个月前
    02680
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    OpenMAIC

    新OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Yihen-Drama

    Yihen-Drama

    Yihen-Drama 是一个专为 AI 短剧创作 打造的全流程一站式平台。它打破了传统视频制作的壁垒,将复杂的影视工业化流程浓缩为一条流畅的自动化流水线。
    查看完整榜单