SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1187 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    阿里通义实验室推出多模态深度研究智能体WebWatcher:通过结合视觉和语言推理能力,解决复杂的多模态信息检索问题

    阿里通义实验室推出多模态深度研究智能体WebWatcher:通过结合视觉和语言推理能力,解决复杂的多模态信息检索问题

    阿里通义实验室推出多模态深度研究智能体WebWatcher,通过结合视觉和语言推理能力,解决复杂的多模态信息检索问题。 GitHub:https://github.com/Alibaba-NLP/We...
    多模态模型# WebWatcher# 多模态深度研究智能体
    7个月前
    03550
    OpenCUA:首个开源的计算机使用智能体框架发布

    OpenCUA:首个开源的计算机使用智能体框架发布

    你是否曾希望有一个 AI 助手,能像你一样操作电脑——打开浏览器查资料、在 Excel 中整理数据、切换应用完成多步骤任务?如今,这类被称为“计算机使用智能体”(Computer Use Agents...
    多模态模型# OpenCUA# 智能体框架
    7个月前
    09540
    LEGION:一个能“看懂”伪造痕迹并指导图像优化的多模态分析框架

    LEGION:一个能“看懂”伪造痕迹并指导图像优化的多模态分析框架

    随着生成模型的飞速发展,AI 合成图像已变得越来越逼真。然而,这种进步也带来了严峻挑战:虚假内容泛滥、误导信息传播、数字信任危机加剧。 作为应对,合成图像检测技术应运而生。但当前方法普遍存在三大局限...
    图像模型# LEGION# 多模态分析框架
    7个月前
    01540
    X-Omni:腾讯混元提出统一图像与语言生成的离散自回归新模型

    X-Omni:腾讯混元提出统一图像与语言生成的离散自回归新模型

    “能否用同一个模型,既写诗又作画?”这是多模态模型长期以来追求的目标。 近年来,研究者尝试将语言模型中成功的“下一 token 预测”范式扩展到图像领域,构建统一的离散自回归模型,期望实现图像生成与语...
    图像模型# X-Omni# 自回归模型
    7个月前
    02430
    LFM2-VL:轻量高效、面向设备端的视觉-语言模型

    LFM2-VL:轻量高效、面向设备端的视觉-语言模型

    在多模态大模型不断追求更高参数量和更强性能的当下,效率与部署可行性正成为实际应用的关键瓶颈。许多视觉-语言模型(VLM)虽在基准测试中表现优异,但其高计算成本和长推理延迟,使其难以在手机、可穿戴设备或...
    多模态模型# LFM2-VL# 视觉-语言模型
    7个月前
    03610
    StableAvatar:首个端到端生成无限长度虚拟人视频的扩散模型

    StableAvatar:首个端到端生成无限长度虚拟人视频的扩散模型

    你是否曾想过,仅凭一张静态照片和一段语音,就能让照片中的人物“开口说话”,并持续数分钟自然表达?这正是音频驱动虚拟人视频生成(Audio-Driven Talking Head Generation...
    视频模型# StableAvatar# 虚拟人
    7个月前
    05210
    上海大学联合vivo推出新型交互式图像抠图方法SDMatte:用扩散模型重新定义交互式抠图

    上海大学联合vivo推出新型交互式图像抠图方法SDMatte:用扩散模型重新定义交互式抠图

    上海大学与 vivo 联合研究团队近期提出一种名为 SDMatte 的新型交互式图像抠图方法。该方法基于稳定扩散模型(Stable Diffusion),支持点、框和掩码三种视觉提示,能够从自然图像中...
    图像模型# SDMatte# 图像抠图
    7个月前
    04720
    新型段落排序模型 ReasonRank:通过强大的推理能力提升段落排序任务的性能

    新型段落排序模型 ReasonRank:通过强大的推理能力提升段落排序任务的性能

    中国人民大学高岭人工智能学院、百度公司和卡内基梅隆大学的研究人员推出新型段落排序模型 ReasonRank,通过强大的推理能力提升段落排序任务的性能。该模型通过引入推理能力,能够更好地理解查询意图,并...
    大语言模型# ReasonRank# 段落排序模型
    7个月前
    03140
    Jan-v1 发布:一个专为本地搜索与深度推理优化的 4B 级开源模型

    Jan-v1 发布:一个专为本地搜索与深度推理优化的 4B 级开源模型

    在 AI 搜索领域,闭源商业产品长期占据主导地位。而今天,开源社区迎来了一位强有力的挑战者——Jan-v1。 作为 Jan 模型家族的首个正式版本,Jan-v1 基于 Qwen3-4B-Thinkin...
    大语言模型# Jan-v1# 搜索
    7个月前
    04190
    昆仑万维发布 Matrix-Game 2.0:首个开源通用交互式世界模型,把“虚拟世界”推向生产线

    昆仑万维发布 Matrix-Game 2.0:首个开源通用交互式世界模型,把“虚拟世界”推向生产线

    DeepMind 最近发布的 Genie 3 让世界再次看到了“交互式世界模型”的潜力:一个模型,即可生成可玩、可控、长序列的虚拟环境。用户只需按下方向键,就能在一个由 AI 实时渲染的世界中自由探索...
    多模态模型# Matrix-Game 2.0# 交互式世界模型# 昆仑万维
    7个月前
    03070
    阿里发布 Omni-Effects:首个支持空间可控复合特效生成的统一框架

    阿里发布 Omni-Effects:首个支持空间可控复合特效生成的统一框架

    在现代电影与视频制作中,视觉特效(VFX)是实现创意表达的核心工具。然而,传统 VFX 制作成本高昂、周期长,依赖专业团队和复杂软件。 近年来,AI 视频生成模型为 VFX 提供了更具成本效益的替代方...
    视频模型# Omni-Effects# 视觉特效
    7个月前
    02360
    腾讯微信视觉团队发布 Stand-In:轻量级身份保持视频生成新框架

    腾讯微信视觉团队发布 Stand-In:轻量级身份保持视频生成新框架

    在文本到视频(T2V)生成领域,一个长期存在的难题是:如何让生成的视频中的人物始终“长成你想要的样子”? 尽管现有模型能生成流畅、高质量的视频,但在身份一致性(identity-preserving...
    视频模型# Stand-In# 视频生成框架
    7个月前
    05230
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    ArkClaw

    ArkClaw

    字节旗下火山引擎正式上线 ArkClaw, 开箱即用的云上 SaaS 版 OpenClaw。无需任何复杂配置,打开网页即可使用 7×24 小时在线的 AI 助手。
    Sub2API

    Sub2API

    Sub2API 是一个 AI API 网关平台,用于分发和管理 AI 产品订阅(如 Claude Code $200/月)的 API 配额。用户通过平台生成的 API Key 调用上游 AI 服务,平台负责鉴权、计费、负载均衡和请求转发。
    查看完整榜单