SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    多模态生成模型

    共 3 篇文章
    排序
    发布更新浏览点赞
     Echo-4o :通过利用 GPT-4o 生成的合成图像数据来提升多模态生成模型的性能

     Echo-4o :通过利用 GPT-4o 生成的合成图像数据来提升多模态生成模型的性能

    上海人工智能实验室、中山大学、香港中文大学和北京大学的研究人员推出 Echo-4o 系统,通过利用 GPT-4o 生成的合成图像数据来提升多模态生成模型(如文本到图像生成、多参考图像生成等任务)的性能...
    新技术# Echo-4o# GPT-4o# 多模态生成模型
    6个月前
    02520
    开源版GPT‑4o?新型多模态生成模型 Liquid,用一个模型搞定视觉与语言任务

    开源版GPT‑4o?新型多模态生成模型 Liquid,用一个模型搞定视觉与语言任务

    在OpenAI旗下GPT‑4o凭借原生生成及编辑图像功能,火爆网络后,大家都在期待有相对应的开源模型推出。而将视觉和语言任务高效整合一直是研究的热点。华中科技大学、字节跳动和香港大学的研究人员推出了新...
    图像模型# GPT‑4o# OpenAI# 多模态生成模型
    10个月前
    02630
    新型多模态生成模型UniDisc:基于离散扩散过程的统一生成模型,能够同时理解和生成文本和图像

    新型多模态生成模型UniDisc:基于离散扩散过程的统一生成模型,能够同时理解和生成文本和图像

    卡内基梅隆大学的研究人员推出新型多模态生成模型 UniDisc(Unified Multimodal Discrete Diffusion),UniDisc 是一个基于离散扩散过程的统一生成模型,能够...
    图像模型# UniDisc# 多模态生成模型
    10个月前
    04030
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    TapNow

    TapNow

    TapNow是一个面向创作者的专业级 AI 视觉内容平台,支持从脚本撰写、分镜头设计到高保真成片输出的完整流程,单人即可在 1–3 天内完成传统需 4–6 周的影视级项目。
    查看完整榜单