SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    多模态模型

    共 191 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    Mistral AI正式发布Mistral 3系列模型:开源多模态模型家族,覆盖从边缘到企业级场景

    Mistral AI正式发布Mistral 3系列模型:开源多模态模型家族,覆盖从边缘到企业级场景

    Mistral AI 正式推出新一代模型系列 Mistral 3,此次发布不仅包含适配边缘场景的 Ministral 3 系列小型密集模型,更带来了性能顶尖的稀疏专家混合模型 Mistral Larg...
    多模态模型# Mistral 3# Mistral AI# Mistral Large 3
    4天前
    0110
    字节跳动发布Vidi2:攻克细粒度时空定位,视频检索性能领先GPT - 5

    字节跳动发布Vidi2:攻克细粒度时空定位,视频检索性能领先GPT - 5

    字节跳动智能创作团队推出的第二代多模态视频模型Vidi2,凭借在时空定位、时间检索和视频问答三大核心能力上的突破,打破了传统视频模型在长视频理解和精细交互上的局限。该模型不仅在核心任务中实现对Gemi...
    多模态模型# Vidi2# 多模态视频模型# 字节跳动
    6天前
    0410
    Meta AI发布SAM 3:支持文本/图像双提示,图像视频分割性能翻

    Meta AI发布SAM 3:支持文本/图像双提示,图像视频分割性能翻

    Meta 近日推出 Segment Anything 系列新一代模型——SAM 3,首次实现文本、图像示例双提示驱动的开放式概念分割,可精准识别并分割“带红色条纹的雨伞”等细粒度概念,在图像与视频分割...
    多模态模型# Meta AI# SAM 3# 分割模型
    6天前
    060
    腾讯开源HunyuanOCR:以1B参数覆盖9大场景,支持百种语言

    腾讯开源HunyuanOCR:以1B参数覆盖9大场景,支持百种语言

    在OCR领域常陷入“大参数换高性能”的内卷时,腾讯混元于11月25日开源的HunyuanOCR,以1B的轻量化参数实现了颠覆性突破。这款依托混元原生多模态架构打造的端到端OCR专家模型,不仅在多项权威...
    多模态模型# HunyuanOCR
    1周前
    080
    谷歌发布 WeatherNext 2:AI 天气预报模型速度提升 8 倍,精准到小时级

    谷歌发布 WeatherNext 2:AI 天气预报模型速度提升 8 倍,精准到小时级

    谷歌DeepMind与Google Research联合发布全新AI天气预报模型WeatherNext 2,定位为“迄今最先进、最高效的全球天气预报解决方案”。该模型以“速度提升8倍、分辨率达小时级...
    多模态模型# WeatherNext 2# 天气预报# 谷歌
    3周前
    0190
    谷歌 DeepMind 发布 SIMA 2:AI智能体首次在虚拟世界中“自我改进”

    谷歌 DeepMind 发布 SIMA 2:AI智能体首次在虚拟世界中“自我改进”

    谷歌DeepMind发布通用AI智能体下一代产品SIMA 2的研究预览,通过深度整合大语言模型Gemini的语言与推理能力,实现从“单纯遵循指令”到“理解环境并互动”的核心突破。这款由Gemini 2...
    多模态模型# SIMA 2# 谷歌 DeepMind
    3周前
    0130
    百度开源ERNIE-4.5-VL-28B-A3B-Thinking:3B活跃参数实现大型模型级多模态推理

    百度开源ERNIE-4.5-VL-28B-A3B-Thinking:3B活跃参数实现大型模型级多模态推理

    百度正式开源 ERNIE-4.5-VL-28B-A3B-Thinking,一款专注于文档、图表与视频理解的多模态推理模型。尽管模型总参数达 约 30B,但通过稀疏激活机制,每次推理仅激活 3B 参数...
    多模态模型# ERNIE-4.5-VL-28B-A3B-Thinking# 多模态推理# 百度
    3周前
    0120
    商汤开源SenseNova-SI:面向空间智能的多模态模型

    商汤开源SenseNova-SI:面向空间智能的多模态模型

    当前主流多模态基础模型在文本、图像理解、推理和生成任务上已取得显著进展,但在空间智能(Spatial Intelligence)方面仍存在系统性短板。具体表现为: 对物体尺度、距离、比例的估计不准确 ...
    多模态模型# SenseNova-SI# 商汤# 空间智能
    4周前
    0880
    阿里巴巴推出 SmartResume:一个能“读懂”复杂简历版式的智能解析系统

    阿里巴巴推出 SmartResume:一个能“读懂”复杂简历版式的智能解析系统

    在企业招聘中,自动化处理海量简历是刚需,但简历格式千奇百怪——多栏排版、图文混排、表格嵌套,传统文本提取工具常会打乱语义顺序,导致关键信息错位。 针对这一难题,阿里巴巴企业智能团队发布了 SmartR...
    多模态模型# SmartResume# 智能简历解析# 阿里巴巴
    4周前
    0900
    美团发布LongCat-Flash-Omni:开源全模态大模型的实时交互新标杆

    美团发布LongCat-Flash-Omni:开源全模态大模型的实时交互新标杆

    美团 LongCat 团队近日开源了 LongCat-Flash-Omni —— 一款参数总量达 5600 亿、每 token 动态激活 270 亿参数 的 全模态大模型(Full-Modal LLM...
    多模态模型# LongCat-Flash-Omni# 美团
    4周前
    0100
    百度飞桨发布 PaddleOCR-VL(0.9B):轻量级端到端多语言文档解析模型

    百度飞桨发布 PaddleOCR-VL(0.9B):轻量级端到端多语言文档解析模型

    百度飞桨团队近日开源 PaddleOCR-VL(0.9B)——一款专为复杂版式文档智能解析设计的视觉语言模型(VLM)。该模型以仅 9亿参数的轻量级架构,实现了对文本、表格、数学公式、图表及手写体的高...
    多模态模型# PaddleOCR-VL# 文档解析模型
    4周前
    0130
    DeepSeek 开源DeepSeek-OCR :用视觉模态压缩文本,3B 小模型撬动长上下文新思路

    DeepSeek 开源DeepSeek-OCR :用视觉模态压缩文本,3B 小模型撬动长上下文新思路

    DeepSeek 开源了 DeepSeek-OCR,一个仅 30 亿参数的视觉语言模型(VLM),却在 OCR 与文本压缩领域展现出令人瞩目的创新力。其核心并非追求更大参数量,而是提出一种“光学压缩...
    多模态模型# DeepSeek# DeepSeek-OCR
    1个月前
    01040
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Next AI Draw.io

    Next AI Draw.io

    Next AI Draw.io 是一个基于 Next.js 的 Web 应用,将大语言模型(LLM)与 draw.io 的强大图表能力深度集成。用户可通过自然语言指令创建、修改和增强专业图表,无需手动拖拽。
    MuMuAINovel

    MuMuAINovel

    MuMuAINovel 是一款开源的 AI 小说创作辅助工具,专为写作者设计。它不替代你的创意,而是帮你把想法快速转化为结构完整、设定一致、可扩展的长篇故事。
    OiiOii AI

    OiiOii AI

    OiiOii.ai 是一个基于多智能体架构的动画生成平台,其核心目标是将动画制作从线性协作流程,转变为端到端的自动化生成。用户只需上传一张图片或输入一段文字描述,系统即可自动完成剧本生成、分镜设计、角色建模、镜头调度、配乐合成与最终渲染,输出一段完整动画视频。
     Hitem3D 

     Hitem3D 

    Hitem3D由Math Magic开发,是一款基于专有高分辨率AI模型Sparc3D的3D生成工具。只需上传一张参考图像,即可即时生成行业领先品质的工作室级3D资产,极大降低了3D创作的门槛。这一突破性解决方案赋能游戏开发者、设计师和3D艺术家高效释放创意,加速从概念到部署的创作流程。
    AI 智能盲人眼镜系统

    AI 智能盲人眼镜系统

    AI 智能盲人眼镜系统是一个面向视障用户的智能辅助工具原型,整合了盲道导航、过马路辅助、物品识别和语音交互等核心功能。通过视频、音频、IMU(惯性测量单元)等多模态输入,系统可提供实时语音引导与环境感知能力,帮助用户更安全地感知周围环境。
    查看完整榜单