SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1135 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    复杂运动、多模态参考、双声道音频!字节跳动正式发布Seedance 2.0:统一多模态架构, 支持导演级编辑的工业级音视频生成

    复杂运动、多模态参考、双声道音频!字节跳动正式发布Seedance 2.0:统一多模态架构, 支持导演级编辑的工业级音视频生成

    字节跳动正式推出新一代视频创作模型 Seedance 2.0。作为迭代升级后的重磅版本,它采用全新统一的多模态音视频联合生成架构,全面支持文本、图片、音频、视频四种模态输入,集成了当前行业内覆盖面最广...
    早报视频模型# Seedance 2.0# 字节跳动
    6天前
    050
    MiniMax正式发布MiniMax M2.5 :更快、更强、更智能,专为现实生产力打造

    MiniMax正式发布MiniMax M2.5 :更快、更强、更智能,专为现实生产力打造

    今天,MiniMax 正式推出全新一代大模型——MiniMax M2.5。这款模型依托在数十万个复杂真实世界环境中开展的大规模强化学习训练,实现了能力的全面升级。 在编程开发、智能体工具使用与信息搜索...
    大语言模型早报# MiniMax# MiniMax M2.5
    6天前
    01320
    Soul AI Lab推出SoulX-FlashTalk :140 亿参数模型实现 0.87 秒启动、32 FPS 实时数字人直播

    Soul AI Lab推出SoulX-FlashTalk :140 亿参数模型实现 0.87 秒启动、32 FPS 实时数字人直播

    当前 AI 数字人技术面临一个根本矛盾:高保真生成与实时性难以兼得。顶尖模型虽能生成逼真口型与表情,但因依赖多步迭代去噪,生成一秒钟视频常需数秒甚至更久,无法用于视频通话、直播带货等实时交互场景。更严...
    视频模型# Soul AI Lab# SoulX-FlashTalk# 数字人
    1周前
    0130
    复旦与微软提出 ArcFlow:基于动量建模的非线性蒸馏框架,2 步生成高质量图像,加速 40 倍

    复旦与微软提出 ArcFlow:基于动量建模的非线性蒸馏框架,2 步生成高质量图像,加速 40 倍

    扩散模型凭借卓越的生成质量成为图像生成领域的核心技术,但40-100步的迭代去噪过程导致推理速度极慢,难以落地到实时应用场景。复旦大学与微软亚洲研究院联合提出的ArcFlow框架,通过非线性轨迹蒸馏的...
    图像模型# ArcFlow# 推理加速
    1周前
    0180
    智谱AI正式发布GLM-5:744B参数+28.5T数据,长周期智能体能力登顶开源第一

    智谱AI正式发布GLM-5:744B参数+28.5T数据,长周期智能体能力登顶开源第一

    智谱AI正式推出新一代通用大模型——GLM-5,这款模型在设计之初就明确了核心定位:面向复杂系统工程和长周期智能体任务,致力于打破基础模型“只能聊天、难以落地”的局限,实现从“氛围编程”到“智能体工程...
    大语言模型# GLM-5# 智谱AI
    1周前
    0140
    SoulX-Singer:42,000 小时训练的零样本歌声合成模型,支持 MIDI 与旋律双模式控制

    SoulX-Singer:42,000 小时训练的零样本歌声合成模型,支持 MIDI 与旋律双模式控制

    Soul AI Lab(中国)联合吉利汽车研究院、天津大学及西北工业大学,共同发布了一款高保真、零样本歌声合成模型——SoulX-Singer。这款模型的核心优势的是,无需对未见歌手进行任何微调,就能...
    语音模型# SoulX-Singer# 歌声合成模型
    1周前
    0150
    阿里重磅发布Qwen-Image-2.0 :支持 1K token 指令生成专业信息图,生图编辑一体化

    阿里重磅发布Qwen-Image-2.0 :支持 1K token 指令生成专业信息图,生图编辑一体化

    阿里全新推出新一代图像生成基础模型Qwen-Image-2.0,凭借专业文字渲染、细腻真实质感、超强语义遵循、轻量模型架构四大核心特色,实现生图与编辑功能的一体化融合,在文生图和图生图双赛道均展现出优...
    图像模型# Qwen-Image-2.0
    1周前
    0170
    Cursor 发布 Composer 1.5:强化学习提升 20 倍,支持复杂代码推理

    Cursor 发布 Composer 1.5:强化学习提升 20 倍,支持复杂代码推理

    Cursor 团队近日正式推出其智能编程模型 Composer 1.5,作为对前代 Composer 1 的重大升级。新版本聚焦于复杂、多步骤编程任务的处理能力,在推理深度、上下文管理和响应效率上均实...
    大语言模型# Composer 1.5# Cursor
    1周前
    070
    Linacodec:12.5 令牌/秒的高压缩音频分词器,支持 48kHz 高清语音

    Linacodec:12.5 令牌/秒的高压缩音频分词器,支持 48kHz 高清语音

    在 AI 语音模型(TTS/ASR)领域,音频分词器(Audio Tokenizer)的效率直接决定训练速度、推理延迟与生成质量。传统方案如 EnCodec、DAC 虽能压缩音频,但令牌率高、采样率低...
    语音模型# Linacodec# 音频分词器
    2周前
    0100
    Helcyon-Mercury-12B-v3.0:基于 Mistral Nemo 的高情感智能对话模型

    Helcyon-Mercury-12B-v3.0:基于 Mistral Nemo 的高情感智能对话模型

    在本地大模型(Local LLM)生态中,大多数模型追求的是“能回答问题”或“会写代码”。但 Helcyon-Mercury-12B-v3.0 的目标截然不同——它不满足于做一台“聊天机器”,而是试图...
    大语言模型# Helcyon-Mercury-12B-v3.0
    2周前
    0130
    Voyage AI 推出Voyage 4 系列模型:共享嵌入空间 + 专家混合架构,重新定义文本嵌入效率

    Voyage AI 推出Voyage 4 系列模型:共享嵌入空间 + 专家混合架构,重新定义文本嵌入效率

    Voyage AI 正式推出 Voyage 4 系列文本嵌入模型,带来两项行业首创技术:统一的共享嵌入空间 与 首个生产级 MoE(专家混合)嵌入模型。这一系列不仅在检索精度上树立新标杆,更通过灵活的...
    大语言模型# Voyage 4# Voyage AI# voyage-4-nano
    2周前
    0200
    VideoMaMa:基于扩散模型的视频抠图新SOTA,粗糙掩码一键生成高精度Alpha遮罩

    VideoMaMa:基于扩散模型的视频抠图新SOTA,粗糙掩码一键生成高精度Alpha遮罩

    高丽大学、Adobe Research 与 KAIST AI 联合提出 VideoMaMa(Video Mask-to-Matte Model),一种基于 Stable Video Diffusion...
    视频模型# VideoMaMa# 视频抠图
    2周前
    0130
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    OpenClaw汉化发行版

    OpenClaw汉化发行版

    OpenClaw汉化发行版已上线——不仅将CLI命令行、Dashboard网页控制台全部深度汉化,还能每小时自动同步OpenClaw官方更新,汉化版延迟低于1小时,既保留原版全部功能,又适配国内用户的使用习惯,3步即可完成安装部署,零基础也能快速上手。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
    nanobot

    nanobot

    nanobot 是一款受 OpenClaw 启发,却走向极简主义的个人 AI 助手。仅用约 4,000 行代码,nanobot 就实现了核心智能体功能,体积相比 OpenClaw 的 43 万行代码缩减了 99%,真正做到了“小到可以理解”。
    查看完整榜单