SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态模型

    共 228 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    蚂蚁集团开源医学智能体MedResearcher-R1:以知识引导技术破解领域AI推理难题

    蚂蚁集团开源医学智能体MedResearcher-R1:以知识引导技术破解领域AI推理难题

    蚂蚁集团正式开源医学智能体 MedResearcher-R1,同时对外公开模型及合成数据生成方法。这一智能体聚焦医学领域AI推理的核心痛点,通过“知识图谱构建-轨迹生成-评估验证”的全流程框架,为领域...
    多模态模型# MedResearcher-R1# 医学智能体# 蚂蚁集团
    7个月前
    0840
    苹果发布 MobileCLIP2:更小、更快、更高效的移动端多模态模型

    苹果发布 MobileCLIP2:更小、更快、更高效的移动端多模态模型

    苹果近期推出了新一代轻量级图像-文本模型家族 —— MobileCLIP2,在保持高精度的同时,显著降低模型体积与推理延迟,专为移动设备上的实时多模态理解任务而设计。 GitHub:https://g...
    多模态模型# MobileCLIP2# 图像-文本模型# 苹果
    7个月前
    0810
    苹果推出视觉语言模型FastVLM:用更少的视觉 Token,更快理解高分辨率图像

    苹果推出视觉语言模型FastVLM:用更少的视觉 Token,更快理解高分辨率图像

    苹果近期发布了 FastVLM系列视觉语言模型,并首次引入其自研混合视觉编码器 FastViTHD。该模型解决当前多模态系统在处理高分辨率图像时面临的效率瓶颈,尤其在移动端和实时交互场景中展现出显著优...
    多模态模型# FastVLM# 苹果# 视觉语言模型
    7个月前
    0900
    NEXA AI推出OmniNeural-4B:全球首个为 NPU 原生设计的多模态 AI 模型

    NEXA AI推出OmniNeural-4B:全球首个为 NPU 原生设计的多模态 AI 模型

    当AI模型需要在手机、PC等终端设备上处理文本、图像、音频时,“速度慢、耗电高、依赖网络”往往是难以回避的问题——多数模型最初为GPU设计,移植到终端的NPU(神经网络处理单元)时需“强行适配”,导致...
    多模态模型# Nexa AI# NPU# OmniNeural-4B
    7个月前
    01160
    腾讯AI实验室联合两校发布Vision-SR1:自我奖励+推理分解,破解VLM视觉推理难题

    腾讯AI实验室联合两校发布Vision-SR1:自我奖励+推理分解,破解VLM视觉推理难题

    腾讯AI实验室联合马里兰大学帕克分校、华盛顿大学圣路易斯分校的研究团队,共同发布了新型视觉-语言模型(VLM)——Vision-SR1。该模型聚焦于解决传统VLM的核心痛点,通过创新的“自我奖励机制...
    多模态模型# Vision-SR1# 视觉-语言模型
    7个月前
    03240
    面壁智能发布 MiniCPM-V 4.5:8B 参数模型实现多模态能力新突破

    面壁智能发布 MiniCPM-V 4.5:8B 参数模型实现多模态能力新突破

    面壁智能正式推出其最新视觉语言模型 MiniCPM-V 4.5,这是 MiniCPM-V 系列中性能最强、功能最全面的版本。该模型在保持 80 亿参数规模的前提下,实现了在视觉理解、视频处理、文档解析...
    多模态模型# MiniCPM-V 4.5# 面壁智能
    7个月前
    06210
    上海AI实验室InternVL项目组发布多模态大语言模型系列InternVL3.5

    上海AI实验室InternVL项目组发布多模态大语言模型系列InternVL3.5

    上海AI实验室InternVL项目组推出 InternVL3.5,这是一个开源的多模态大语言模型(MLLM)系列,旨在提升模型在多功能性、推理能力和效率方面的表现。 GitHub:https://gi...
    多模态模型# InternVL3.5# 上海AI实验室
    7个月前
    01830
    阿里通义实验室推出 Mobile-Agent-v3 框架:为图形用户界面(GUI)任务的自动化带来了全新的解决方案

    阿里通义实验室推出 Mobile-Agent-v3 框架:为图形用户界面(GUI)任务的自动化带来了全新的解决方案

    在当今数字化时代,自动化技术的发展日新月异。阿里通义实验室作为行业内的创新先锋,于近期推出了令人瞩目的Mobile-Agent-v3框架,为图形用户界面(GUI)任务的自动化带来了全新的解决方案。 G...
    多模态模型# Mobile-Agent-v3# 图形用户界面# 通义实验室
    7个月前
    01,0910
    视频多模态大语言模型RynnEC:专为具身认知任务设计

    视频多模态大语言模型RynnEC:专为具身认知任务设计

    阿里达摩院、湖畔实验室和浙江大学的研究人员推出视频多模态大语言模型RynnEC,专为具身认知任务设计。它通过结合区域编码器和掩码解码器,能够灵活地处理视频中的区域级交互,从而为具身代理提供对物理世界的...
    多模态模型# RynnEC# 视频多模态大语言模型
    7个月前
    01030
    Thyme:会生成代码的多模态模型,突破“图像思考”边界

    Thyme:会生成代码的多模态模型,突破“图像思考”边界

    由快手联合中科院自动化所、南京大学、清华大学、中国科学技术大学共同研发的Thyme,重新定义了视觉多模态模型的能力边界。它不再局限于传统的“用图像思考”,而是通过自主生成、执行代码,完成多样化的图像处...
    多模态模型# Thyme# 多模态模型
    7个月前
    01250
    阿里国际发布多模态大语言模型Ovis2.5:原生分辨率视觉感知与深度推理的双重突破

    阿里国际发布多模态大语言模型Ovis2.5:原生分辨率视觉感知与深度推理的双重突破

    阿里国际正式推出 Ovis2.5 —— Ovis2 的继任者,一款在原生分辨率视觉理解和多模态推理能力上实现显著跃升的开源多模态大语言模型(MLLM)。 GitHub:https://github.c...
    多模态模型# Ovis2.5# 多模态大语言模型# 阿里国际
    7个月前
    03200
    视觉语言模型ClipTagger-12B:开源视频理解新标杆,性能对标 GPT-4.1,成本低至 1/15

    视觉语言模型ClipTagger-12B:开源视频理解新标杆,性能对标 GPT-4.1,成本低至 1/15

    程序化视频理解正在成为构建智能视觉系统的基础设施。从内容审核到自动化标注,从辅助功能到视频搜索引擎,开发者需要一种高效、可靠的方式,将原始视频帧转化为结构化、可搜索、可操作的数据。 为此,Infere...
    多模态模型# ClipTagger-12B# 视觉语言模型
    7个月前
    05110
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    ArkClaw

    ArkClaw

    字节旗下火山引擎正式上线 ArkClaw, 开箱即用的云上 SaaS 版 OpenClaw。无需任何复杂配置,打开网页即可使用 7×24 小时在线的 AI 助手。
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    QClaw

    QClaw

    腾讯推出QClaw ,这是基于 OpenClaw 进行深度产品化封装的“官方一键安装包”。它的目标非常明确:让强大的 AI Agent 能力,像安装普通软件一样简单,并直接融入中国人的国民级应用——微信和 QQ。
    Loomy

    新Loomy

    科大讯飞正式发布基于AstronClaw打造的桌面AI助理Loomy。Loomy面向本地办公场景,支持文件整理、内容创作、数据分析、网页操作、邮件处理等多步骤任务自动执行。
    查看完整榜单