SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜
    • 网址提交

    多模态

    共 8 篇文章
    排序
    发布更新浏览点赞
    多模态扩散架构MoDA:用于生成具有任意身份和语音音频的“会说话的头像”

    多模态扩散架构MoDA:用于生成具有任意身份和语音音频的“会说话的头像”

    阿里达摩院、浙江大学、湖畔实验室的研究人员推出多模态扩散架构MoDA,用于生成具有任意身份和语音音频的“会说话的头像”(talking head)。 项目主页:https://lixinyyang.g...
    视频模型# MoDA# 多模态
    5个月前
    01120
    让搜索更智能!Google Search AI Mode获得多模态搜索支持

    让搜索更智能!Google Search AI Mode获得多模态搜索支持

    谷歌一直以来都在不断探索和改进搜索功能,以提供更智能、更便捷的用户体验。最近,谷歌为其 Google Search AI Mode 功能增加了多模态搜索支持,使该功能能够处理更多数据类型,进一步提升了...
    早报# Google Search AI Mode# 多模态
    9个月前
    02280
    WikiAutoGen:用于自动化生成多模态维基百科风格文章的系统

    WikiAutoGen:用于自动化生成多模态维基百科风格文章的系统

    阿卜杜拉国王科技大学、兰州大学、悉尼大学的研究人员推出WikiAutoGen,这是一个用于自动化生成多模态维基百科风格文章的系统。它通过整合文本和图像信息,生成高质量、多模态的维基百科风格文章,同时引...
    新技术# WikiAutoGen# 多模态# 维基百科
    10个月前
    03980
    谷歌Gemini 2.0 Flash重磅升级:原生多模态生成,图像编辑进入对话时代

    谷歌Gemini 2.0 Flash重磅升级:原生多模态生成,图像编辑进入对话时代

    谷歌在昨天除了发布了开源模型Gemma 3,还正式开放了Gemini 2.0 Flash的原生图像生成编辑功能,这款实验性模型凭借单模型多模态生成能力,正在重塑AI创作逻辑。相比传统需要「语言模型+扩...
    多模态模型# Gemini 2.0 Flash# gemini-2.0-flash-exp# Gemma 3
    10个月前
    02770
    微软研究院推出的多模态 AI 代理基础模型Magma

    微软研究院推出的多模态 AI 代理基础模型Magma

    Magma 是由微软研究院推出的一款面向多模态AI代理的基础模型,为一系列智能任务提供强大的支持。它不仅具备视觉-语言(VL)模型的理解能力(即语言智能),还拥有在视觉空间世界中规划和执行动作的能力...
    多模态模型# Magma# 多模态# 微软研究院
    11个月前
    02810
    统一多模态框架UniPose:用于理解、生成和编辑人体姿态

    统一多模态框架UniPose:用于理解、生成和编辑人体姿态

    中国科学院计算技术研究所和中国科学院大学的研究人员推出统一多模态框架UniPose,它用于理解、生成和编辑人体姿态。UniPose利用大语言模型(LLMs)来处理包括图像、文本和3D SMPL姿态在内...
    新技术# UniPose# 人体姿态# 多模态
    1年前
    03010
    FSC-CLIP:提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能

    FSC-CLIP:提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能

    韩国科学技术院、世宗大学和汉阳大学的研究人员推出FSC-CLIP,提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能。简单来说,就是让计算机能够更好地理...
    新技术# FSC-CLIP# 多模态
    1年前
    04850
    基于多模态token的新型基础模型MIO:能够以端到端、自回归的方式理解和生成语音、文本、图像和视频

    基于多模态token的新型基础模型MIO:能够以端到端、自回归的方式理解和生成语音、文本、图像和视频

    北京航空航天大学、01.AI、香港理工大学、AIWaves、阿尔伯塔大学、滑铁卢大学、曼彻斯特大学、中国科学院自动化研究所、北京大学和香港科技大学的研究人员推出一个基于多模态token的新型基础模型M...
    新技术# MIO# 多模态
    1年前
    06210
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    NotebookLM 网页导入器

    NotebookLM 网页导入器

    由社区开发者推出的浏览器扩展 NotebookLM Web Importer,让你一键将当前浏览的网页或正在观看的 YouTube 视频导入 NotebookLM,无需复制粘贴、无需手动下载转文本。
    Playground

    Playground

    Playground AI 是一款AI 设计工具,让用户可以创建自定义的设计和图形。它是一个非常受欢迎的 AI 绘图和图像编辑工具,提供 AI 绘图和图像生成功能,以及图像编辑功能,例如图像擦除、局部替换和背景移除。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Genspark

    Genspark

    Genspark 超级智能体——您的全能AI伙伴,从拨打电话、制作幻灯片到生成TikTok短视频,轻松应对日常任务。内置80+预装工具与海量数据集,更快、更可靠、更可控。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    查看完整榜单