SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1179 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    蚂蚁集团 inclusionAI 团队发布统一生成模型Ming-omni-tts:统一语音、音乐与声音生成,实现高精度细粒度可控音频合成

    蚂蚁集团 inclusionAI 团队发布统一生成模型Ming-omni-tts:统一语音、音乐与声音生成,实现高精度细粒度可控音频合成

    蚂蚁集团 inclusionAI 团队近期正式发布了 Ming-omni-tts,这是一款设计简洁、运行高效的统一音频生成模型。它不仅可以在单一框架内合成高质量的语音,还能同时生成音乐与各类环境声音...
    语音模型# Ming-omni-tts# 统一生成模型
    1个月前
    0420
    蚂蚁集团开源 ZwZ 模型:无需迭代缩放,单次 glance 实现细粒度多模态感知SOTA

    蚂蚁集团开源 ZwZ 模型:无需迭代缩放,单次 glance 实现细粒度多模态感知SOTA

    当前主流的“图像思考”方法,虽能通过迭代放大感兴趣区域提升细粒度感知能力,却存在致命短板——重复的工具调用与视觉重新编码,导致推理延迟居高不下,难以适配实际应用场景。 针对这一痛点,蚂蚁集团 incl...
    多模态模型# ZwZ# 蚂蚁集团
    1个月前
    0210
    蚂蚁集团发布Ming-flash-omni 2.0 :100B MoE 多模态全能模型,支持视觉百科、沉浸式语音、高动态图像生成与编辑

    蚂蚁集团发布Ming-flash-omni 2.0 :100B MoE 多模态全能模型,支持视觉百科、沉浸式语音、高动态图像生成与编辑

    蚂蚁集团 inclusionAI 团队正式推出 Ming-flash-omni 2.0,搭载全新 Ling-2.0 混合专家(MoE)架构,以总参数 100B、激活参数 6B 的高效配置,在开源全能型...
    多模态模型# Ming-flash-omni 2.0
    1个月前
    0110
    蚂蚁集团发布 LLaDA2.1:支持实时自我修正的开源扩散语言模型

    蚂蚁集团发布 LLaDA2.1:支持实时自我修正的开源扩散语言模型

    当大语言模型不再只能逐词生成,而是可以实时编辑自己已经生成的内容,会带来怎样的变革? 蚂蚁集团 inclusionAI 团队正式推出 LLaDA2.1——一款彻底打破自回归模型主导地位的文本扩散大模型...
    大语言模型# LLaDA2.1# 扩散语言模型
    1个月前
    0730
    蚂蚁集团 inclusionAI 团队推出Ring-2.5-1T:全球首个万亿参数混合线性注意力思维模型

    蚂蚁集团 inclusionAI 团队推出Ring-2.5-1T:全球首个万亿参数混合线性注意力思维模型

    蚂蚁集团 inclusionAI 团队正式推出 Ring-2.5-1T,这是全球首个基于混合线性注意力架构的开源万亿参数思维模型,标志着向通用人工智能体迈出关键一步。 Hugging Face :ht...
    大语言模型# Ring-2.5-1T# 蚂蚁集团
    1个月前
    01040
    Nanbeige4.1-3B:在保持小参数规模的同时,实现强大推理、偏好对齐与高效智能体能力

    Nanbeige4.1-3B:在保持小参数规模的同时,实现强大推理、偏好对齐与高效智能体能力

    Nanbeige4.1-3B 基于 Nanbeige4-3B-Base 架构构建,是Nanbeige团队此前推出的推理专用模型 Nanbeige4-3B-Thinking-2511 的全面增强迭代版本...
    大语言模型# Nanbeige4.1-3B# 推理模型
    1个月前
    0420
    图像编辑模型FireRed-Image-Edit:小红书团队出品,让图片编辑像说话一样简单

    图像编辑模型FireRed-Image-Edit:小红书团队出品,让图片编辑像说话一样简单

    小红书智能创作基础技术团队正式推出 FireRed-Image-Edit——一款通用图像编辑模型,凭借原生编辑架构、精准指令遵循能力,在广泛场景下实现高保真、视觉一致的编辑效果,既打破了专业修图的门槛...
    图像模型# FireRed-Image-Edit# 图像编辑模型# 小红书
    1个月前
    01860
    阿里国际发布 Ovis2.6-30B-A3B:MoE 架构多模态大模型,低成本实现高性能视觉理解

    阿里国际发布 Ovis2.6-30B-A3B:MoE 架构多模态大模型,低成本实现高性能视觉理解

    阿里国际正式推出 Ovis2.6-30B-A3B 多模态大语言模型,作为 Ovis 系列的最新迭代版本,它在 Ovis2.5 基础上全面升级主干架构与多模态能力,以更低推理成本实现更强的长上下文、高分...
    多模态模型# Ovis2.6-30B-A3B# 多模态大模型
    1个月前
    0140
    复杂运动、多模态参考、双声道音频!字节跳动正式发布Seedance 2.0:统一多模态架构, 支持导演级编辑的工业级音视频生成

    复杂运动、多模态参考、双声道音频!字节跳动正式发布Seedance 2.0:统一多模态架构, 支持导演级编辑的工业级音视频生成

    字节跳动正式推出新一代视频创作模型 Seedance 2.0。作为迭代升级后的重磅版本,它采用全新统一的多模态音视频联合生成架构,全面支持文本、图片、音频、视频四种模态输入,集成了当前行业内覆盖面最广...
    早报视频模型# Seedance 2.0# 字节跳动
    1个月前
    0160
    MiniMax正式发布MiniMax M2.5 :更快、更强、更智能,专为现实生产力打造

    MiniMax正式发布MiniMax M2.5 :更快、更强、更智能,专为现实生产力打造

    今天,MiniMax 正式推出全新一代大模型——MiniMax M2.5。这款模型依托在数十万个复杂真实世界环境中开展的大规模强化学习训练,实现了能力的全面升级。 在编程开发、智能体工具使用与信息搜索...
    大语言模型早报# MiniMax# MiniMax M2.5
    1个月前
    02860
    Soul AI Lab推出SoulX-FlashTalk :140 亿参数模型实现 0.87 秒启动、32 FPS 实时数字人直播

    Soul AI Lab推出SoulX-FlashTalk :140 亿参数模型实现 0.87 秒启动、32 FPS 实时数字人直播

    当前 AI 数字人技术面临一个根本矛盾:高保真生成与实时性难以兼得。顶尖模型虽能生成逼真口型与表情,但因依赖多步迭代去噪,生成一秒钟视频常需数秒甚至更久,无法用于视频通话、直播带货等实时交互场景。更严...
    视频模型# Soul AI Lab# SoulX-FlashTalk# 数字人
    1个月前
    0310
    复旦与微软提出 ArcFlow:基于动量建模的非线性蒸馏框架,2 步生成高质量图像,加速 40 倍

    复旦与微软提出 ArcFlow:基于动量建模的非线性蒸馏框架,2 步生成高质量图像,加速 40 倍

    扩散模型凭借卓越的生成质量成为图像生成领域的核心技术,但40-100步的迭代去噪过程导致推理速度极慢,难以落地到实时应用场景。复旦大学与微软亚洲研究院联合提出的ArcFlow框架,通过非线性轨迹蒸馏的...
    图像模型# ArcFlow# 推理加速
    1个月前
    0360
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    ArkClaw

    ArkClaw

    字节旗下火山引擎正式上线 ArkClaw, 开箱即用的云上 SaaS 版 OpenClaw。无需任何复杂配置,打开网页即可使用 7×24 小时在线的 AI 助手。
    JVSClaw

    JVSClaw

    里云正式推出基于该框架打造的下一代 AI 助理平台——JVSClaw。目前,该产品已开启内测,主打“开箱即用”与“自进化能力”,让普通用户和开发者都能轻松“快乐养虾”。
    360 安全龙虾

    新360 安全龙虾

    60安全龙虾目前已接入16家国内主流大模型,覆盖文本生成、编程开发、多模态创作等多种能力。同时内置100余个高频技能,可直接用于文档生成、数据分析、PPT制作、会议转写等常见办公场景。
    FLORA

    FLORA

    FLORA 是一款创意图像和视频创作工具,接入了顶级 AI 绘画和视频模型。它通过优雅的交互设计,帮助创意团队构建结构化、可扩展的工作流,提升创作速度和控制力,支持多人实时协作。
    Vidu

    Vidu

    Vidu 是一款由生数科技与清华大学合作开发的 AI 视频生成工具,2024 年推出,专注于从文本和图像生成高清视频。它支持文本转视频、图像转视频和参考转视频模式,适合社交媒体、广告和电影制作。
    查看完整榜单