SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态模型

    共 201 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    用于 GUI 自动化的视觉代理模型ShowUI:结合了视觉、语言和行动能力,提高人机交互的效率和生产力

    用于 GUI 自动化的视觉代理模型ShowUI:结合了视觉、语言和行动能力,提高人机交互的效率和生产力

    新加坡国立大学和微软的研究人员推出用于 GUI(图形用户界面) 自动化的视觉代理模型ShowUI ,它是一个结合了视觉、语言和行动能力的大模型,旨在提高人机交互的效率和生产力。ShowUI通过理解和执...
    多模态模型# ShowUI# 视觉代理模型
    11个月前
    02580
    Hugging Face发布一个用于设备上推理的2B参数小型多模态模型SmolVLM

    Hugging Face发布一个用于设备上推理的2B参数小型多模态模型SmolVLM

    近年来,随着机器学习技术的飞速发展,视觉-语言模型(VLM)的需求不断增加。这些模型能够处理图像和文本的组合任务,如图像描述、问答和故事生成等。然而,大多数现有的VLM需要大量的计算资源和内存,这限制...
    多模态模型# Hugging Face# SmolVLM# 多模态模型
    11个月前
    02910
    Jina CLIP v2:用于文本和图像的多语言多模态嵌入

    Jina CLIP v2:用于文本和图像的多语言多模态嵌入

    在互联互通的世界中,跨多种语言和媒介的有效沟通变得越来越重要。多模态AI在结合图像和文本以实现不同语言的无缝检索和理解方面面临着诸多挑战。现有的模型在英语中表现良好,但在其他语言中则表现不佳。此外,同...
    多模态模型# Jina CLIP v2# 多语言多模态嵌入
    11个月前
    03010
    Nexa AI 推出迷你视觉语言模型 OmniVision-968M

    Nexa AI 推出迷你视觉语言模型 OmniVision-968M

    Nexa AI 最新发布了 OmniVision-968M,这是一款专为边缘设备设计的视觉语言模型,它通过技术创新,将图像标记数量大幅减少,显著降低了延迟和计算负担,还提升了处理速度,为边缘计算领域带...
    多模态模型# Nexa AI# OmniVision-968M# 视觉语言模型
    11个月前
    07320
    深度求索推出统一图像理解和生成的创新框架JanusFlow:将图像理解和生成统一在一个模型中

    深度求索推出统一图像理解和生成的创新框架JanusFlow:将图像理解和生成统一在一个模型中

    来自深度求索(DeepSeek-AI)、香港大学、清华大学和北京大学的研究人员提出了一种名为JanusFlow的创新框架,该框架将图像理解和生成统一在一个模型中。JanusFlow引入了一个极简的架构...
    多模态模型# JanusFlow# 深度求索
    11个月前
    05160
    图像编辑通用模型OMNI-EDIT:通过专家监督来构建,能够执行多种图像编辑任务

    图像编辑通用模型OMNI-EDIT:通过专家监督来构建,能够执行多种图像编辑任务

    指令引导的图像编辑方法通过在自动合成或手动标注的图像编辑对上训练扩散模型,展示了显著的潜力。然而,这些方法在实际应用中仍然存在明显的不足。滑铁卢大学和威斯康星大学麦迪逊分校的研究人员识别了导致这一差距...
    多模态模型# OMNI-EDIT# 图像编辑
    11个月前
    04400
    深度求索推出新颖自回归框架 Janus: 具有图像生成功能的 13 亿多模态模型

    深度求索推出新颖自回归框架 Janus: 具有图像生成功能的 13 亿多模态模型

    多模态AI模型是能够理解和生成视觉内容的强大工具。然而,现有方法通常使用单一视觉编码器来处理这两项任务,这导致了由于理解和生成在本质上不同的需求而表现不佳。理解需要高层次的语义抽象,而生成则关注局部细...
    多模态模型# Janus# 多模态模型
    11个月前
    09060
    阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B:能够同时处理和理解文本和视觉信息

    阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B:能够同时处理和理解文本和视觉信息

    Ovis1.6-Gemma2-9B是阿里国际推出的一款多模态大语言模型,Ovis是一种新颖的多模态大语言模型(MLLM)架构,旨在结构化地对齐视觉和文本嵌入。Ovis1.6-Gemma2-9B基于O...
    多模态模型# Ovis1.6-Gemma2-9B# 多模态大语言模型
    11个月前
    05410
    新型多模态原生模型Aria:专门设计来处理和理解多种类型的信息(文本、代码、图像和视频)

    新型多模态原生模型Aria:专门设计来处理和理解多种类型的信息(文本、代码、图像和视频)

    Rhymes AI推出新型多模态原生模型Aria,这是一个开源的混合专家(MoE)模型,ARIA专门设计来处理和理解多种类型的信息,比如文本、代码、图像和视频,而且它能够像人类一样,不需要特别区分这些...
    多模态模型# Aria# Rhymes AI# 多模态模型
    11个月前
    05420
    大型多模态模型LLaVA-Video:专门设计来处理视频指令并进行视频内容理解

    大型多模态模型LLaVA-Video:专门设计来处理视频指令并进行视频内容理解

    字节跳动、南洋理工大学S-Lab和北京邮电大学的研究人员推出大型多模态模型LLaVA-Video,专门设计来处理视频指令并进行视频内容理解。这个模型特别擅长于解析和生成与视频内容相关的语言描述,比如详...
    多模态模型# LLaVA-Video# 多模态模型
    11个月前
    05590
    新型开源大型多模态模型LLaVA-Critic:用于评估各种多模态任务的性能

    新型开源大型多模态模型LLaVA-Critic:用于评估各种多模态任务的性能

    字节跳动和马里兰大学帕克分校的研究人员推出新型开源大型多模态模型LLaVA-Critic,它被设计成一个全能的评估者,用于评估各种多模态任务的性能。多模态任务通常涉及理解和生成与图像、视频和文本相关的...
    多模态模型# LLaVA-Critic# 多模态模型
    11个月前
    04420
    新型CLIP专家混合模型CLIP-MoE:可以无缝替换CLIP,以即插即用的方式,而无需在下游框架中进一步适应

    新型CLIP专家混合模型CLIP-MoE:可以无缝替换CLIP,以即插即用的方式,而无需在下游框架中进一步适应

    香港中文大学、上海人工智能实验室和舒尔茨大学的研究人员推出新型CLIP模型CLIP-MoE,它是为了增强现有的多模态智能模型CLIP而设计的。CLIP-MoE可以无缝替换CLIP,以即插即用的方式,而...
    多模态模型# CLIP-MoE# 多模态智能模型
    11个月前
    05860
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Grok

    Grok

    Grok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。
    LiblibAI

    LiblibAI

    LiblibAI 是一家位于中国的 AI 图像生成平台,成立于 2023 年,为用户提供创建、分享和互动 AI 生成图像的工具。它基于开源的SD、Flux等模型,适合设计师、艺术家和内容创作者使用,提供文本到图像生成、图像操作和个性化模型训练等功能。
    Songscription

    Songscription

    Songscription 是一个创新的 AI 平台,帮助用户将音频文件或 YouTube 视频快速转换为专业的乐谱和 MIDI 文件。它被称为“乐谱版 Shazam”,让音乐创作和学习更便捷,尤其适合那些没有官方乐谱的曲目。
    LoCoDiff

    LoCoDiff

    LoCoDiff 不只是一个性能榜单,更是对当前长上下文模型能力边界的诚实检验。它揭示了一个事实:即使模型宣称支持百万 token 上下文,也不意味着能在实际任务中有效利用这些信息。尤其是在需要持续状态跟踪的场景中,记忆衰减、注意力分散等问题依然严峻。
    查看完整榜单