SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航

    多模态

    共 7 篇文章
    排序
    发布更新浏览点赞
    让搜索更智能!Google Search AI Mode获得多模态搜索支持

    让搜索更智能!Google Search AI Mode获得多模态搜索支持

    谷歌一直以来都在不断探索和改进搜索功能,以提供更智能、更便捷的用户体验。最近,谷歌为其 Google Search AI Mode 功能增加了多模态搜索支持,使该功能能够处理更多数据类型,进一步提升了...
    早报# Google Search AI Mode# 多模态
    3个月前
    01280
    WikiAutoGen:用于自动化生成多模态维基百科风格文章的系统

    WikiAutoGen:用于自动化生成多模态维基百科风格文章的系统

    阿卜杜拉国王科技大学、兰州大学、悉尼大学的研究人员推出WikiAutoGen,这是一个用于自动化生成多模态维基百科风格文章的系统。它通过整合文本和图像信息,生成高质量、多模态的维基百科风格文章,同时引...
    新技术# WikiAutoGen# 多模态# 维基百科
    4个月前
    01370
    谷歌Gemini 2.0 Flash重磅升级:原生多模态生成,图像编辑进入对话时代

    谷歌Gemini 2.0 Flash重磅升级:原生多模态生成,图像编辑进入对话时代

    谷歌在昨天除了发布了开源模型Gemma 3,还正式开放了Gemini 2.0 Flash的原生图像生成编辑功能,这款实验性模型凭借单模型多模态生成能力,正在重塑AI创作逻辑。相比传统需要「语言模型+扩...
    多模态模型# Gemini 2.0 Flash# gemini-2.0-flash-exp# Gemma 3
    4个月前
    01760
    微软研究院推出的多模态 AI 代理基础模型Magma

    微软研究院推出的多模态 AI 代理基础模型Magma

    Magma 是由微软研究院推出的一款面向多模态AI代理的基础模型,为一系列智能任务提供强大的支持。它不仅具备视觉-语言(VL)模型的理解能力(即语言智能),还拥有在视觉空间世界中规划和执行动作的能力...
    多模态模型# Magma# 多模态# 微软研究院
    5个月前
    01800
    统一多模态框架UniPose:用于理解、生成和编辑人体姿态

    统一多模态框架UniPose:用于理解、生成和编辑人体姿态

    中国科学院计算技术研究所和中国科学院大学的研究人员推出统一多模态框架UniPose,它用于理解、生成和编辑人体姿态。UniPose利用大语言模型(LLMs)来处理包括图像、文本和3D SMPL姿态在内...
    新技术# UniPose# 人体姿态# 多模态
    8个月前
    02060
    FSC-CLIP:提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能

    FSC-CLIP:提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能

    韩国科学技术院、世宗大学和汉阳大学的研究人员推出FSC-CLIP,提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能。简单来说,就是让计算机能够更好地理...
    新技术# FSC-CLIP# 多模态
    9个月前
    03940
    基于多模态token的新型基础模型MIO:能够以端到端、自回归的方式理解和生成语音、文本、图像和视频

    基于多模态token的新型基础模型MIO:能够以端到端、自回归的方式理解和生成语音、文本、图像和视频

    北京航空航天大学、01.AI、香港理工大学、AIWaves、阿尔伯塔大学、滑铁卢大学、曼彻斯特大学、中国科学院自动化研究所、北京大学和香港科技大学的研究人员推出一个基于多模态token的新型基础模型M...
    新技术# MIO# 多模态
    9个月前
    04950
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Open ASR 排行榜

    Open ASR 排行榜

    Open ASR 排行榜 对 Hugging Face Hub 上的语音识别模型进行排名和评估。我们报告平均 WER(字错误率)(⬇️ 越低越好)和 RTFx(实时因子)(⬆️ 越高越好),模型根据其平均 WER 从低到高进行排名。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Proxy

    Proxy

    Proxy是一款非常实用的 AI代理工具,虽然它并不完美,但在处理日常琐事方面表现出色。它的核心优势在于简单易用、无需复杂设置,并且能够主动解决问题。对于忙碌的用户来说,Proxy 是一个值得信赖的数字助手,可以显著提高效率。
    通义万象

    通义万象

    通义万象是阿里云旗下的图像及视频生成平台,凭借其强大的多模态生成能力,正在引领生成式 AI 的发展。除了传统的文生图能力,通义万象现已支持文生视频、图生视频等多种功能,并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。
    Vibe Kanban

    新Vibe Kanban

    Vibe Kanban 不只是一个任务管理面板,它是人与 AI 协作的新界面。它帮助开发者更好地组织、调度和评估 AI 编码代理的工作成果,从而释放人类工程师的最大价值。
    DiffRhythm(谛韵)

    DiffRhythm(谛韵)

    DiffRhythm(中文名“谛韵”)是由西北工业大学音频、语音与语言处理研究组(ASLP Lab)和香港中文大学(深圳)深圳大数据研究院联合开发的新型端到端全长度歌曲生成模型。基于潜扩散(Latent Diffusion)技术,DiffRhythm 能够快速生成包含人声和伴奏的完整歌曲,解决了现有音乐生成方法的诸多局限性。
    查看完整榜单