LOADING

SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航

    多模态模型

    共 104 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    EmoNet:迈向真正“有情感”的AI,LAION开源新一代情感智能模型

    新EmoNet:迈向真正“有情感”的AI,LAION开源新一代情感智能模型

    人工智能的发展正进入一个全新的阶段:从理解语言到理解情绪。尽管AI在语言处理、推理能力等方面取得了显著进展,但在情感智能(Affective Intelligence)这一维度上,仍然存在巨大空白。 ...
    多模态模型# EmoNet# LAION AI# 情感智能模型
    1天前
    040
    Nanonets 推出 Nanonets-OCR-s:首个面向 LLM 的结构化 OCR 模型

    Nanonets 推出 Nanonets-OCR-s:首个面向 LLM 的结构化 OCR 模型

    近日,Nanonets 宣布推出一款全新的 OCR 模型 Nanonets-OCR-s ——这是一款专为大语言模型(LLMs)设计的图像转 Markdown 工具,具备强大的文档理解与结构化输出能力...
    多模态模型# Nanonets-OCR-s# OCR 模型
    5天前
    0440
    Holo1:HCompany开源高性能视觉-语言模型,赋能Surfer-H代理实现精准网页交互

    Holo1:HCompany开源高性能视觉-语言模型,赋能Surfer-H代理实现精准网页交互

    Holo1 是由 HCompany 开发的一款专为网络代理系统设计的 动作视觉-语言模型(VLM),作为 Surfer-H 网络代理的核心组件之一,它具备像人类用户一样与网页界面交互的能力。 模型:h...
    多模态模型# Holo1# 视觉-语言模型
    7天前
    0310
    英伟达发布 Cosmos-Predict2:打造物理AI的世界基础模型

    英伟达发布 Cosmos-Predict2:打造物理AI的世界基础模型

    在物理AI(Physical AI)系统的开发中,模拟真实世界的动态变化至关重要。为此,英伟达推出了 Cosmos-Predict2,作为其 Cosmos 世界模型 的最新演进版本,专为生成具有物理感...
    多模态模型# Cosmos-Predict2# 世界基础模型# 英伟达
    1周前
    0330
    Meta推出基于视频训练的“世界模型”V-JEPA 2:AI“世界模型”迈出理解物理世界的重要一步

    Meta推出基于视频训练的“世界模型”V-JEPA 2:AI“世界模型”迈出理解物理世界的重要一步

    Meta 发布了其最新 AI 研究成果 —— V-JEPA 2,一个基于视频训练的“世界模型”,旨在帮助 AI 更好地理解现实世界的物理规律,并用于机器人控制、任务规划等复杂场景。 项目主页:http...
    多模态模型# Meta# V-JEPA 2# 世界模型
    1周前
    0450
    华科大联合金山办公推出文档解析新模型MonkeyOCR

    华科大联合金山办公推出文档解析新模型MonkeyOCR

    近日,华中科技大学与金山办公联合研究团队发布了一款全新的文档解析模型 —— MonkeyOCR。该模型通过引入“结构-识别-关系”(Structure-Recognition-Relation, SR...
    多模态模型# MonkeyOCR# 文档解析
    2周前
    0760
    微软提出 GUI-Actor:基于视觉语言模型的无坐标 GUI 定位新范式

    微软提出 GUI-Actor:基于视觉语言模型的无坐标 GUI 定位新范式

    在构建基于视觉语言模型(VLM)的 GUI 代理系统中,一个关键挑战是如何准确理解屏幕上的视觉内容并定位应执行操作的区域。传统方法通常将此问题建模为“文本到坐标的生成”任务,即通过语言描述预测具体像素...
    多模态模型# GUI-Actor# 微软
    2周前
    0660
    英伟达推出面向文档理解的小而强视觉-语言模型 Llama Nemotron Nano VL

    英伟达推出面向文档理解的小而强视觉-语言模型 Llama Nemotron Nano VL

    英伟达正式发布了 Llama Nemotron Nano VL —— 一款专为高效处理复杂文档设计的轻量级视觉-语言模型(VLM)。该模型基于 Llama 3.1 架构构建,在保持高性能的同时兼顾推理...
    多模态模型# Llama Nemotron Nano VL# 英伟达
    2周前
    0450
    Hugging Face 推出轻量级机器人AI模型SmolVLA:可在MacBook运行

    Hugging Face 推出轻量级机器人AI模型SmolVLA:可在MacBook运行

    随着AI与机器人技术的融合不断深入,构建个人机器人项目正变得前所未有的容易。近日,知名AI平台 Hugging Face 正式发布了其最新研发的机器人AI模型——SmolVLA,这一模型不仅小巧高效...
    多模态模型# Hugging Face# SmolVLA
    2周前
    0940
    SignGemma:谷歌推出全球最强手语翻译模型,为听障人群打开沟通新通道

    SignGemma:谷歌推出全球最强手语翻译模型,为听障人群打开沟通新通道

    谷歌近日宣布推出全新 AI 模型 SignGemma,作为 Gemma 家族的新成员,它专注于将手语(尤其是美式手语 ASL)翻译成英文文本或语音输出,是目前最强大的开源手语理解模型之一。 SignG...
    多模态模型# SignGemma# 手语翻译模型
    3周前
    0440
    像素空间推理视觉语言模型Pixel Reasoner:引入像素空间推理的概念,显著提升了视觉语言模型在视觉密集型任务中的表现

    像素空间推理视觉语言模型Pixel Reasoner:引入像素空间推理的概念,显著提升了视觉语言模型在视觉密集型任务中的表现

    中国科学技术大学、香港科技大学和滑铁卢大学的研究人员推出基于 Qwen2 的开源视觉语言模型Pixel Reasoner,它通过引入像素空间推理(pixel-space reasoning)的概念,显...
    多模态模型# Pixel Reasoner# 视觉语言模型
    3周前
    0490
    谷歌发布医学多模态开源模型MedGemma:支持图像与文本理解,支持X光CT分析

    谷歌发布医学多模态开源模型MedGemma:支持图像与文本理解,支持X光CT分析

    谷歌近日推出了一款面向医疗领域的开源模型系列 —— MedGemma,该模型基于 Gemma 3 构建,在医学图像识别与文本理解方面表现出色,标志着医疗 AI 在开源方向上的重要进展。 MedGemm...
    多模态模型# MedGemma# 医学多模态开源模型# 谷歌
    3周前
    0480
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Open ASR 排行榜

    Open ASR 排行榜

    Open ASR 排行榜 对 Hugging Face Hub 上的语音识别模型进行排名和评估。我们报告平均 WER(字错误率)(⬇️ 越低越好)和 RTFx(实时因子)(⬆️ 越高越好),模型根据其平均 WER 从低到高进行排名。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    通义万象

    通义万象

    通义万象是阿里云旗下的图像及视频生成平台,凭借其强大的多模态生成能力,正在引领生成式 AI 的发展。除了传统的文生图能力,通义万象现已支持文生视频、图生视频等多种功能,并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。
    TTSMaker

    TTSMaker

    TTSMaker是一款在线文本转语音工具,也称为AI语音生成器,它可以将文本转换为音频,并且可以播放或下载音频文件。
    Refly

    Refly

    Refly 是一个基于「自由画布」理念构建的 AI 原生内容创作平台,通过多线程对话、知识库整合、上下文记忆、智能搜索与可见即可得的 AI 文档编辑器,为用户提供从创意萌发到成品内容的一站式解决方案。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    查看完整榜单