SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1081 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    HeartMuLa:开源音乐基础模型家族,支持歌词识别、高保真生成与细粒度控制

    HeartMuLa:开源音乐基础模型家族,支持歌词识别、高保真生成与细粒度控制

    如果你曾幻想过——只需输入一段歌词和一句描述(如“一首欢快的流行歌,吉他伴奏,副歌要有电子音效”),AI 就能生成一首结构完整、音质高保真的歌曲——那么 HeartMuLa 项目正将这一愿景变为现实...
    语音模型# HeartMuLa# 音乐模型
    1周前
    01110
    FrankenMotion:首个支持身体部位级精细控制的文本驱动人体动作生成框架

    FrankenMotion:首个支持身体部位级精细控制的文本驱动人体动作生成框架

    在虚拟角色、游戏动画或人机交互中,如何让 AI 根据自然语言描述生成逼真且可控的人体动作,一直是计算机图形学与 AI 领域的挑战。现有方法大多只能生成整体动作(如“走路”“跳舞”),难以对手臂、腿部...
    3D模型# FrankenMotion# 人体动作
    1周前
    0190
    谷歌开源新翻译模型TranslateGemma:4B 到 27B 全覆盖,支持 55 种语言

    谷歌开源新翻译模型TranslateGemma:4B 到 27B 全覆盖,支持 55 种语言

    谷歌发布 TranslateGemma —— 一套基于 Gemma 3 构建的全新开源翻译模型家族,包含 4B、12B 和 27B 三种参数规模,支持 55 种语言 的高质量互译。更重要的是,它在效率...
    大语言模型# TranslateGemma# 翻译模型# 谷歌
    2周前
    0500
    黑森林实验室发布 FLUX.2 [klein]:统一生成与编辑的最快开源模型

    黑森林实验室发布 FLUX.2 [klein]:统一生成与编辑的最快开源模型

    黑森林实验室(Black Forest Labs)今日正式推出 FLUX.2 [klein] 模型系列——这是目前速度最快、体积最小的高质量图像生成模型家族。它将文生图、图像编辑与多参考图生成统一于单...
    图像模型# FLUX.2 [klein]# 黑森林实验室
    2周前
    01250
    智谱AI开源GLM-TTS:LLM驱动的高质量TTS系统,支持零样本克隆与情感增强

    智谱AI开源GLM-TTS:LLM驱动的高质量TTS系统,支持零样本克隆与情感增强

    智谱AI推出的GLM-TTS是一款基于大语言模型的文本到语音合成系统,创新性采用LLM+Flow模型的两阶段架构,不仅实现了零样本语音克隆、流式推理等实用功能,还通过多奖励强化学习框架,大幅提升了语音...
    语音模型# GLM-TTS# 智谱AI
    2周前
    0250
    智谱AI开源GLM-Image:自回归+扩散混合架构,攻克知识密集型图像生成难题

    智谱AI开源GLM-Image:自回归+扩散混合架构,攻克知识密集型图像生成难题

    智谱AI正式推出GLM-Image——业界首个开源的工业级离散自回归图像生成模型。这款模型创新性地采用自回归模块+扩散解码器的混合架构,既继承了自回归模型对复杂语义的精准理解能力,又兼具扩散模型高保真...
    图像模型# GLM-Image# 智谱AI
    2周前
    01690
    腾讯优图实验室推出 Youtu-LLM:持 128K 上下文、本地运行,专为端侧 AI 设计

    腾讯优图实验室推出 Youtu-LLM:持 128K 上下文、本地运行,专为端侧 AI 设计

    在大模型普遍走向百亿、千亿参数的今天,腾讯优图实验室推出了一款仅 1.96B 参数的轻量级语言模型——Youtu-LLM。它不追求规模堆砌,而是以 STEM 能力与原生智能体(Agentic)能力为核...
    多模态模型# Youtu-LLM# 腾讯优图实验室
    3周前
    0210
    ElevenLabs 推出 Scribe v2:支持 90+ 语言的高精度批量转录模型

    ElevenLabs 推出 Scribe v2:支持 90+ 语言的高精度批量转录模型

    ElevenLabs 正式发布 Scribe v2——一款专为大规模音视频内容处理设计的新一代语音转文字模型。与主打低延迟的 Scribe v2 Realtime 不同,Scribe v2 面向批量转...
    语音模型# ElevenLabs# Scribe v2
    3周前
    0500
    阿里开源 Qwen3-VL 多模态检索模型:Embedding + Reranker 两阶段提升跨模态精度

    阿里开源 Qwen3-VL 多模态检索模型:Embedding + Reranker 两阶段提升跨模态精度

    在多模态 AI 应用日益普及的今天,如何高效检索混合了文本、图像、截图甚至视频的内容,仍是技术难点。传统方案往往依赖多个专用模型,导致系统复杂、语义割裂。 官方说明:https://qwen.ai/b...
    多模态模型# Qwen3-VL-Embedding# Qwen3-VL-Reranker
    3周前
    0290
    UniVideo:滑铁卢大学与快手推出统一视频生成与编辑模型,支持理解、生成、编辑一体化

    UniVideo:滑铁卢大学与快手推出统一视频生成与编辑模型,支持理解、生成、编辑一体化

    长久以来,视频 AI 能力被割裂为多个独立任务: 理解:靠视觉语言模型(如 Qwen-VL) 生成:依赖扩散模型(如 Sora、HunyuanVideo) 编辑:需专门的编辑网络或掩码引导 这种碎片化...
    视频模型# UniVideo# 视频生成# 视频编辑
    3周前
    0120
    Nemotron-Speech-Streaming-En-0.6B:面向低延迟与高吞吐的流式语音识别模型

    Nemotron-Speech-Streaming-En-0.6B:面向低延迟与高吞吐的流式语音识别模型

    英伟达推出的 Nemotron-Speech-Streaming-En-0.6B 是 Nemotron Speech 系列中的首个统一语音识别(ASR)模型,专为实时英语转录场景设计。它同时支持低延迟...
    语音模型# Nemotron-Speech-Streaming-En-0.6B# 英伟达# 语音识别
    3周前
    0150
    Lightricks发布LTX-2:首个基于 DiT 的开源音视频基础模型

    Lightricks发布LTX-2:首个基于 DiT 的开源音视频基础模型

    Lightricks发布了首个基于 Diffusion Transformer(DiT) 架构的开源音视频联合生成模型LTX-2。它在一个统一框架中集成了现代视频生成的核心能力:同步的音频与视频输出...
    视频模型# Lightricks# LTX-2# 音视频模型
    3周前
    0170
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Clawdbot/Moltbot

    Clawdbot/Moltbot

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    Situation Monitor

    Situation Monitor

    Situation Monitor 是由开发者 Reggie James 创建的一个免费、开源的全球风险监测平台。它通过一张交互式地图,实时整合并可视化全球范围内的关键地缘政治与安全信息,帮助用户快速掌握潜在冲突热点和战略动态。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Awesome Clawdbot(Moltbot) Skills

    新Awesome Clawdbot(Moltbot) Skills

    社区维护了一份名为 Awesome Clawdbot (Moltbot) Skills 的精选技能集合。该列表收录了 565 项以上 来自 ClawdHub(Moltbot 官方公共技能注册表)的技能,并按功能类别组织,便于浏览与安装。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    查看完整榜单