SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1240 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    天工AI发布 UniPic-2.0:轻量高效、统一多模态图像生成与编辑新范式

    天工AI发布 UniPic-2.0:轻量高效、统一多模态图像生成与编辑新范式

    天工AI正式推出 UniPic-2.0 系列模型,基于 SD3.5-Medium 架构与创新训练策略,在文本到图像生成、细粒度图像编辑和多模态理解任务中实现全面性能突破。 GitHub:https...
    图像模型# UniPic-2.0# 天工AI
    8个月前
    04130
    清华、蚂蚁等联合发布ASearcher:开源大规模强化学习搜索代理

    清华、蚂蚁等联合发布ASearcher:开源大规模强化学习搜索代理

    由清华大学交叉信息研究院、蚂蚁研究院、强化学习实验室与华盛顿大学的研究团队联合推出 ASearcher —— 一个面向大规模在线强化学习(Reinforcement Learning, RL)的开源搜...
    大语言模型# ASearcher# inclusionAI
    8个月前
    03940
    视频处理引擎ViPE:用于从普通视频中估计相机运动、相机内参以及密集的度量深度图

    视频处理引擎ViPE:用于从普通视频中估计相机运动、相机内参以及密集的度量深度图

    英伟达、多伦多大学、矢量研究所和德克萨斯大学奥斯汀分校的研究人员推出视频处理引擎ViPE(Video Pose Engine) ,用于从普通视频中估计相机运动、相机内参以及密集的度量深度图,能够从普通...
    视频模型# ViPE# 视频处理引擎
    8个月前
    03050
    Magenta RealTime:一个可交互、可定制的开源实时音乐生成模型

    Magenta RealTime:一个可交互、可定制的开源实时音乐生成模型

    当 AI 生成音乐从“预设播放”走向“实时演奏”,我们正在见证创作方式的一次深刻转变。 传统的音乐生成模型通常以“批处理”模式运行:输入一段提示,等待几秒后输出完整音频。这种模式虽能产出完整作品,却缺...
    语音模型# Magenta RealTime# 实时音乐生成模型
    8个月前
    02050
    Matrix-3D:天工AI提出全景式3D世界生成新框架

    Matrix-3D:天工AI提出全景式3D世界生成新框架

    从一张照片或一段文字出发,生成一个可以自由探索的3D世界——这是空间智能的核心愿景之一。近年来,基于视频扩散模型的方法在3D内容生成上取得进展,但普遍存在两大瓶颈: 视野受限:生成视角有限,难以实现全...
    3D模型# Matrix-3D# 天工AI
    8个月前
    03000
    阿里通义实验室推出多模态深度研究智能体WebWatcher:通过结合视觉和语言推理能力,解决复杂的多模态信息检索问题

    阿里通义实验室推出多模态深度研究智能体WebWatcher:通过结合视觉和语言推理能力,解决复杂的多模态信息检索问题

    阿里通义实验室推出多模态深度研究智能体WebWatcher,通过结合视觉和语言推理能力,解决复杂的多模态信息检索问题。 GitHub:https://github.com/Alibaba-NLP/We...
    多模态模型# WebWatcher# 多模态深度研究智能体
    8个月前
    03640
    OpenCUA:首个开源的计算机使用智能体框架发布

    OpenCUA:首个开源的计算机使用智能体框架发布

    你是否曾希望有一个 AI 助手,能像你一样操作电脑——打开浏览器查资料、在 Excel 中整理数据、切换应用完成多步骤任务?如今,这类被称为“计算机使用智能体”(Computer Use Agents...
    多模态模型# OpenCUA# 智能体框架
    8个月前
    09620
    LEGION:一个能“看懂”伪造痕迹并指导图像优化的多模态分析框架

    LEGION:一个能“看懂”伪造痕迹并指导图像优化的多模态分析框架

    随着生成模型的飞速发展,AI 合成图像已变得越来越逼真。然而,这种进步也带来了严峻挑战:虚假内容泛滥、误导信息传播、数字信任危机加剧。 作为应对,合成图像检测技术应运而生。但当前方法普遍存在三大局限...
    图像模型# LEGION# 多模态分析框架
    8个月前
    01570
    X-Omni:腾讯混元提出统一图像与语言生成的离散自回归新模型

    X-Omni:腾讯混元提出统一图像与语言生成的离散自回归新模型

    “能否用同一个模型,既写诗又作画?”这是多模态模型长期以来追求的目标。 近年来,研究者尝试将语言模型中成功的“下一 token 预测”范式扩展到图像领域,构建统一的离散自回归模型,期望实现图像生成与语...
    图像模型# X-Omni# 自回归模型
    8个月前
    02470
    LFM2-VL:轻量高效、面向设备端的视觉-语言模型

    LFM2-VL:轻量高效、面向设备端的视觉-语言模型

    在多模态大模型不断追求更高参数量和更强性能的当下,效率与部署可行性正成为实际应用的关键瓶颈。许多视觉-语言模型(VLM)虽在基准测试中表现优异,但其高计算成本和长推理延迟,使其难以在手机、可穿戴设备或...
    多模态模型# LFM2-VL# 视觉-语言模型
    8个月前
    03880
    StableAvatar:首个端到端生成无限长度虚拟人视频的扩散模型

    StableAvatar:首个端到端生成无限长度虚拟人视频的扩散模型

    你是否曾想过,仅凭一张静态照片和一段语音,就能让照片中的人物“开口说话”,并持续数分钟自然表达?这正是音频驱动虚拟人视频生成(Audio-Driven Talking Head Generation...
    视频模型# StableAvatar# 虚拟人
    8个月前
    05460
    上海大学联合vivo推出新型交互式图像抠图方法SDMatte:用扩散模型重新定义交互式抠图

    上海大学联合vivo推出新型交互式图像抠图方法SDMatte:用扩散模型重新定义交互式抠图

    上海大学与 vivo 联合研究团队近期提出一种名为 SDMatte 的新型交互式图像抠图方法。该方法基于稳定扩散模型(Stable Diffusion),支持点、框和掩码三种视觉提示,能够从自然图像中...
    图像模型# SDMatte# 图像抠图
    8个月前
    05120
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    同事.skill

    同事.skill

    同事.skill 是一款创新工具。它不仅能提取离职同事的技术规范和工作经验,更能通过飞书消息、钉钉文档、微信聊天记录等“数字足迹”,还原其性格特质、沟通风格甚至“甩锅”技巧。
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    MaxClaw

    MaxClaw

    Minimax 正式宣布对其 AI 智能体平台进行重大升级,推出 探索专家(Expert) 2.0 与 MaxClaw 两大核心功能。此次更新不仅大幅降低了专业智能体的创建门槛,更通过云端化部署解决了 OpenClaw 长期存在的“落地难”问题,标志着 AI 智能体从“极客玩具”向“大众生产力工具”的跨越。
    Claude Managed Agents

    新Claude Managed Agents

    Claude Managed Agents是一组可用于大规模构建和部署智能体程序的API。它预先配置好了所需的各项功能:原生MCP接口、各种工具集成方案、内存资源等。无论您是要创建单任务处理程序,还是构建复杂的多智能体系统,都能轻松实现快速开发与部署。
    查看完整榜单