SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    多模态模型

    共 193 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    开源视觉语言模型Moondream:将强大的图像理解能力与极小的资源占用完美结合

    开源视觉语言模型Moondream:将强大的图像理解能力与极小的资源占用完美结合

    Moondream 是一款高效的开源视觉语言模型(VLM),它将强大的图像理解能力与极小的资源占用完美结合。这款模型设计初衷是为各种设备和平台提供多功能且易于访问的人工智能解决方案。 官网:https...
    多模态模型# Moondream# 视觉语言模型
    10个月前
    03260
    微软推出全新多模态大语言模型家族Florence-VL

    微软推出全新多模态大语言模型家族Florence-VL

    马里兰大学和微软研究院的研究团队共同提出了Florence-VL,这是一个全新的多模态大语言模型(MLLMs)家族。Florence-VL的视觉表示由生成式视觉基础模型Florence-2生成,与传统...
    多模态模型# Florence-VL# 多模态大语言模型# 微软
    10个月前
    03090
    谷歌推出开源视觉语言模型PaliGemma2:增加了强大的视觉能力,更容易微调

    谷歌推出开源视觉语言模型PaliGemma2:增加了强大的视觉能力,更容易微调

    今年5月,谷歌推出了 PaliGemma,这是 Gemma 家族中的第一个视觉语言模型,旨在使一流的视觉AI更加普及。现在,谷歌自豪地推出 PaliGemma 2,这是一个可调视觉语言模型的最新进化版...
    多模态模型# PaliGemma2# 视觉语言模型# 谷歌
    10个月前
    03030
    多模态大语言模型ChatRex:提升对人类姿态的感知和理解能力

    多模态大语言模型ChatRex:提升对人类姿态的感知和理解能力

    IDEA的研究人员推出多模态大语言模型ChatRex,它旨在提升对人类姿态的感知和理解能力。ChatRex通过结合视觉和语言模型,能够执行多种与人体姿态相关任务,包括姿态理解、生成和编辑。这个模型特别...
    多模态模型# ChatRex# 多模态大语言模型
    10个月前
    02720
    用于 GUI 自动化的视觉代理模型ShowUI:结合了视觉、语言和行动能力,提高人机交互的效率和生产力

    用于 GUI 自动化的视觉代理模型ShowUI:结合了视觉、语言和行动能力,提高人机交互的效率和生产力

    新加坡国立大学和微软的研究人员推出用于 GUI(图形用户界面) 自动化的视觉代理模型ShowUI ,它是一个结合了视觉、语言和行动能力的大模型,旨在提高人机交互的效率和生产力。ShowUI通过理解和执...
    多模态模型# ShowUI# 视觉代理模型
    10个月前
    02580
    Hugging Face发布一个用于设备上推理的2B参数小型多模态模型SmolVLM

    Hugging Face发布一个用于设备上推理的2B参数小型多模态模型SmolVLM

    近年来,随着机器学习技术的飞速发展,视觉-语言模型(VLM)的需求不断增加。这些模型能够处理图像和文本的组合任务,如图像描述、问答和故事生成等。然而,大多数现有的VLM需要大量的计算资源和内存,这限制...
    多模态模型# Hugging Face# SmolVLM# 多模态模型
    10个月前
    02890
    Jina CLIP v2:用于文本和图像的多语言多模态嵌入

    Jina CLIP v2:用于文本和图像的多语言多模态嵌入

    在互联互通的世界中,跨多种语言和媒介的有效沟通变得越来越重要。多模态AI在结合图像和文本以实现不同语言的无缝检索和理解方面面临着诸多挑战。现有的模型在英语中表现良好,但在其他语言中则表现不佳。此外,同...
    多模态模型# Jina CLIP v2# 多语言多模态嵌入
    10个月前
    03000
    Nexa AI 推出迷你视觉语言模型 OmniVision-968M

    Nexa AI 推出迷你视觉语言模型 OmniVision-968M

    Nexa AI 最新发布了 OmniVision-968M,这是一款专为边缘设备设计的视觉语言模型,它通过技术创新,将图像标记数量大幅减少,显著降低了延迟和计算负担,还提升了处理速度,为边缘计算领域带...
    多模态模型# Nexa AI# OmniVision-968M# 视觉语言模型
    10个月前
    07200
    深度求索推出统一图像理解和生成的创新框架JanusFlow:将图像理解和生成统一在一个模型中

    深度求索推出统一图像理解和生成的创新框架JanusFlow:将图像理解和生成统一在一个模型中

    来自深度求索(DeepSeek-AI)、香港大学、清华大学和北京大学的研究人员提出了一种名为JanusFlow的创新框架,该框架将图像理解和生成统一在一个模型中。JanusFlow引入了一个极简的架构...
    多模态模型# JanusFlow# 深度求索
    10个月前
    04880
    图像编辑通用模型OMNI-EDIT:通过专家监督来构建,能够执行多种图像编辑任务

    图像编辑通用模型OMNI-EDIT:通过专家监督来构建,能够执行多种图像编辑任务

    指令引导的图像编辑方法通过在自动合成或手动标注的图像编辑对上训练扩散模型,展示了显著的潜力。然而,这些方法在实际应用中仍然存在明显的不足。滑铁卢大学和威斯康星大学麦迪逊分校的研究人员识别了导致这一差距...
    多模态模型# OMNI-EDIT# 图像编辑
    10个月前
    04330
    深度求索推出新颖自回归框架 Janus: 具有图像生成功能的 13 亿多模态模型

    深度求索推出新颖自回归框架 Janus: 具有图像生成功能的 13 亿多模态模型

    多模态AI模型是能够理解和生成视觉内容的强大工具。然而,现有方法通常使用单一视觉编码器来处理这两项任务,这导致了由于理解和生成在本质上不同的需求而表现不佳。理解需要高层次的语义抽象,而生成则关注局部细...
    多模态模型# Janus# 多模态模型
    10个月前
    08990
    阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B:能够同时处理和理解文本和视觉信息

    阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B:能够同时处理和理解文本和视觉信息

    Ovis1.6-Gemma2-9B是阿里国际推出的一款多模态大语言模型,Ovis是一种新颖的多模态大语言模型(MLLM)架构,旨在结构化地对齐视觉和文本嵌入。Ovis1.6-Gemma2-9B基于O...
    多模态模型# Ovis1.6-Gemma2-9B# 多模态大语言模型
    10个月前
    05300
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    OiiOii AI

    OiiOii AI

    OiiOii.ai 是一个基于多智能体架构的动画生成平台,其核心目标是将动画制作从线性协作流程,转变为端到端的自动化生成。用户只需上传一张图片或输入一段文字描述,系统即可自动完成剧本生成、分镜设计、角色建模、镜头调度、配乐合成与最终渲染,输出一段完整动画视频。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单