SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态模型

    共 229 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    OpenVLThinker:通过迭代自我改进的方法,将复杂的推理能力(如自我验证和自我修正)整合到大型视觉语言模型中

    OpenVLThinker:通过迭代自我改进的方法,将复杂的推理能力(如自我验证和自我修正)整合到大型视觉语言模型中

    加州大学洛杉矶分校的研究人员推出OpenVLThinker,通过迭代自我改进的方法,将复杂的推理能力(如自我验证和自我修正)整合到大型视觉语言模型(LVLMs)中,并评估其在多模态推理任务中的表现。 ...
    多模态模型# OpenVLThinker# 多模态推理模型
    12个月前
    03660
    英伟达开源了世界上第一个人形机器人基础模型 GR00T N1,加速通用人形机器人开发

    英伟达开源了世界上第一个人形机器人基础模型 GR00T N1,加速通用人形机器人开发

    人形机器人旨在适应人类工作空间,处理重复性或高要求任务。然而,为现实世界的任务和不可预测环境开发通用人形机器人具有挑战性。每项任务通常需要专用的AI模型。从头开始为每个新任务和环境训练这些模型是一个繁...
    多模态模型# GR00T N1# 人形机器人基础模型# 英伟达
    1年前
    02850
    视觉语言模型SmolDocling:以高效的方式实现端到端的多模态文档转换

    视觉语言模型SmolDocling:以高效的方式实现端到端的多模态文档转换

    在数字化时代,文档处理和理解是许多行业和研究领域的核心需求。从学术论文到商业报告,从技术手册到专利文件,文档的高效转换和理解对于信息提取、知识管理和自动化流程至关重要。然而,传统的文档处理方法往往依赖...
    多模态模型# SmolDocling# 文档转换# 视觉语言模型
    1年前
    05790
    谷歌Gemini 2.0 Flash重磅升级:原生多模态生成,图像编辑进入对话时代

    谷歌Gemini 2.0 Flash重磅升级:原生多模态生成,图像编辑进入对话时代

    谷歌在昨天除了发布了开源模型Gemma 3,还正式开放了Gemini 2.0 Flash的原生图像生成编辑功能,这款实验性模型凭借单模型多模态生成能力,正在重塑AI创作逻辑。相比传统需要「语言模型+扩...
    多模态模型# Gemini 2.0 Flash# gemini-2.0-flash-exp# Gemma 3
    1年前
    02790
    谷歌推出

    谷歌推出"功能强大的图像安全检查器"ShieldGemma2

    去年,谷歌发布了 ShieldGemma,这是一套基于 Gemma 2 构建的安全内容分类器模型,旨在检测 AI 模型文本输入和输出中的有害内容。今天,随着 Gemma 3 的亮相,谷歌宣布推出Shi...
    多模态模型# Gemma 2# Gemma 3# ShieldGemma 2
    1年前
    02740
    阿里通义实验室开源R1-Omni:用强化学习解锁全模态大模型的新潜力

    阿里通义实验室开源R1-Omni:用强化学习解锁全模态大模型的新潜力

    随着DeepSeek R1的发布,强化学习在大模型领域的潜力得到了进一步挖掘。Reinforcement Learning with Verifiable Reward(RLVR)方法为多模态任务提供...
    多模态模型# R1-Omni# 全模态大模型# 强化学习
    1年前
    02250
    Cohere 推出多语言多模态视觉模型 Aya Vision:集成了语言和视觉功能,并支持多达 23 种语言的输入

    Cohere 推出多语言多模态视觉模型 Aya Vision:集成了语言和视觉功能,并支持多达 23 种语言的输入

    加拿大 AI 初创公司 Cohere 于 2019 年成立,专注于为企业提供 AI 解决方案。尽管在与 OpenAI 和 Anthropic 等美国巨头的竞争中市场份额有限,且面临来自中国开源竞争对手...
    多模态模型# Aya Vision# Cohere# 多模态视觉模型
    1年前
    02250
    艾伦AI研究所推出 olmOCR:高性能的 PDF 和文档图像文本提取工具包

    艾伦AI研究所推出 olmOCR:高性能的 PDF 和文档图像文本提取工具包

    艾伦AI研究所正式推出了 olmOCR,这是一款高性能的开源工具包,专为将 PDF 和文档图像转换为干净、结构化的纯文本而设计。 GitHub:https://github.com/allenai/o...
    多模态模型# olmOCR# 艾伦AI研究所
    1年前
    01830
    Convergence 发布基于视觉语言模型(VLM)的迷你开源模型 Proxy Lite

    Convergence 发布基于视觉语言模型(VLM)的迷你开源模型 Proxy Lite

    在数字化时代,自动化与 Web 内容交互的需求日益增长。然而,现有的解决方案往往面临资源密集型、任务特定化以及缺乏透明性等问题。这些问题限制了它们的广泛适用性和社区参与度。 GitHub:https...
    多模态模型# Convergence# Proxy Lite# 视觉语言模型
    1年前
    03020
    微软研究院推出的多模态 AI 代理基础模型Magma

    微软研究院推出的多模态 AI 代理基础模型Magma

    Magma 是由微软研究院推出的一款面向多模态AI代理的基础模型,为一系列智能任务提供强大的支持。它不仅具备视觉-语言(VL)模型的理解能力(即语言智能),还拥有在视觉空间世界中规划和执行动作的能力...
    多模态模型# Magma# 多模态# 微软研究院
    1年前
    03340
    首个截图就能生成现代前端代码的多模态模型Flame

    首个截图就能生成现代前端代码的多模态模型Flame

    尽管前沿的多模态模型(如 GPT-4O)在代码生成上展现了强大的能力,但它们在真实的前端开发场景中仍无法满足现代前端工作流程的动态需求。这些模型虽然能够生成代码,但输出的前端代码通常是静态的,缺乏模块...
    多模态模型# Flame# 前端代码# 多模态模型
    1年前
    04180
    Hugging Face 发布轻量级多模态模型SmolVLM2:专为视频内容分析而设计

    Hugging Face 发布轻量级多模态模型SmolVLM2:专为视频内容分析而设计

    Hugging Face 最新发布了一款轻量级多模态模型SmolVLM2,专为视频内容分析而设计。该模型以高效性和适应性为核心目标,旨在将视频理解能力扩展到从手机到服务器的各种设备上。SmolVLM2...
    多模态模型# Hugging Face# SmolVLM2# 多模态模型
    1年前
    03110
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    OpenMAIC

    新OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Yihen-Drama

    Yihen-Drama

    Yihen-Drama 是一个专为 AI 短剧创作 打造的全流程一站式平台。它打破了传统视频制作的壁垒,将复杂的影视工业化流程浓缩为一条流畅的自动化流水线。
    查看完整榜单