SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1237 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    CoCo:让 AI 像程序员一样“写代码画图”,彻底解决文生图的文字与布局难题

    CoCo:让 AI 像程序员一样“写代码画图”,彻底解决文生图的文字与布局难题

    如果你曾让 AI 画一张“带有具体数据的饼图”、“排版精美的餐厅菜单”或“标注了坐标轴的数学函数图”,结果大概率会失望:文字变成乱码、布局歪七扭八、数据完全错误。 这是因为现有的文生图模型依赖模糊的自...
    多模态模型# CoCo
    3周前
    0130
    ID-LoRA:让AI同时“克隆”你的长相和声音,还能配合场景表演

    ID-LoRA:让AI同时“克隆”你的长相和声音,还能配合场景表演

    你有没有想过,如果AI能根据一张照片和一段声音,就能生成一个“数字分身”,让这个分身在任何场景中说话、表演,而且声音和口型都能完美匹配,这会带来什么可能? 这正是特拉维夫大学等研究机构最新发布的 ID...
    视频模型# ID-LoRA# 数字人
    3周前
    0280
    KokoClone:极速实时多语言语音克隆系统,基于 Kokoro-ONNX 驱动

    KokoClone:极速实时多语言语音克隆系统,基于 Kokoro-ONNX 驱动

    KokoClone 是一款构建在 Kokoro-ONNX(目前最快的开源神经语音合成引擎之一)之上的高性能语音克隆系统。它打破了传统 TTS(文本转语音)和语音转换的延迟瓶颈,实现了快速、实时兼容的多...
    语音模型# KokoClone# Kokoro-ONNX
    4周前
    0220
    黑森林实验室发布 FLUX.2 [klein] 9B-KV:多参考图像编辑速度飙升 2.5 倍

    黑森林实验室发布 FLUX.2 [klein] 9B-KV:多参考图像编辑速度飙升 2.5 倍

    黑森林实验室(Black Forest Labs)今日正式推出 FLUX.2 [klein] 9B-KV,这是其备受赞誉的轻量级图像编辑模型 FLUX.2 [klein] 9B 的专用优化变体。新版本...
    图像模型# FLUX.2 [klein] 9B-KV# 黑森林实验室
    4周前
    01700
    上海 AI 实验室发布 InternVL-U:40 亿参数统一多模态模型,理解、推理、生成与编辑全能合一

    上海 AI 实验室发布 InternVL-U:40 亿参数统一多模态模型,理解、推理、生成与编辑全能合一

    在人工智能领域,模型往往面临“专才”与“全才”的抉择:有的擅长理解图片内容,有的精于生成精美画作,但鲜有模型能同时精通“看、想、画、改”四项技能。 上海人工智能实验室正式推出 InternVL-U,一...
    多模态模型# InternVL-U# 上海 AI 实验室
    4周前
    0540
    英伟达发布 Nemotron 3 Super:1200 亿参数 MoE 架构,智能体吞吐量飙升 5 倍

    英伟达发布 Nemotron 3 Super:1200 亿参数 MoE 架构,智能体吞吐量飙升 5 倍

    随着企业 AI 应用从简单的聊天机器人向复杂的多智能体系统(Multi-Agent Systems)演进,两大瓶颈日益凸显:上下文爆炸导致成本激增与目标漂移,以及每一步都需大模型推理带来的高昂"思考税...
    大语言模型# NVIDIA Nemotron 3 Super# 英伟达
    4周前
    0470
    Hume AI 开源 TTS 模型 TADA:文本 - 声学一对一同步,推理速度提升 5 倍且零幻觉

    Hume AI 开源 TTS 模型 TADA:文本 - 声学一对一同步,推理速度提升 5 倍且零幻觉

    在基于大语言模型(LLM)的文本转语音(TTS)领域,开发者长期面临一个“不可能三角”:速度、质量与可靠性难以兼得。传统的 LLM-TTS 系统往往因为文本与音频表示的不匹配,导致推理缓慢、内存消耗巨...
    语音模型# Hume AI# TADA# TTS
    4周前
    0670
    Fish Audio 开源 Fish Audio S2 Pro:支持自然语言指令的精细化 TTS 模型,单卡 H200 实时因子低至 0.195

    Fish Audio 开源 Fish Audio S2 Pro:支持自然语言指令的精细化 TTS 模型,单卡 H200 实时因子低至 0.195

    在文本转语音(TTS)领域,如何在保持高保真音质的同时,实现对韵律、情感和副语言特征(如笑声、呼吸声)的精细化控制,一直是行业难点。今日,Fish Audio 正式开源 S2 模型及其完整的生产级推理...
    语音模型# Fish Audio# Fish Audio S2 Pro
    4周前
    0140
    谷歌发布 Gemini Embedding 2:首个原生多模态嵌入模型,支持文本/图像/音视频统一检索

    谷歌发布 Gemini Embedding 2:首个原生多模态嵌入模型,支持文本/图像/音视频统一检索

    谷歌今日通过 Gemini API 和 Vertex AI 正式开放 Gemini Embedding 2 的公开预览。这是谷歌首个基于 Gemini 架构构建的原生多模态嵌入模型,能够将文本、图像...
    多模态模型# Gemini Embedding 2# 多模态嵌入模型# 谷歌
    4周前
    0190
    腾讯开源SongGeneration 2:歌词准确率超越 Suno v5,首个真正达到“商业级”的开源音乐大模型

    腾讯开源SongGeneration 2:歌词准确率超越 Suno v5,首个真正达到“商业级”的开源音乐大模型

    腾讯 AI 实验室重磅发布 LeVo 2 (SongGeneration 2) —— 一个旨在打破开源 AI 音乐天花板的基础模型。经过大规模、严格的专家盲测评估,LeVo 2 在音乐性、歌词准确性和...
    语音模型# SongGeneration 2# 腾讯
    4周前
    0960
    EffectMaker:腾讯混元新作,无需微调即可“克隆”电影级特效,让普通人也能做 VFX 大师

    EffectMaker:腾讯混元新作,无需微调即可“克隆”电影级特效,让普通人也能做 VFX 大师

    “好莱坞大片里那些令人震撼的火焰、冰霜、能量波,曾经需要数百万美元和数年训练才能制作。现在,只需一段参考视频和一张照片,AI 就能为你‘克隆’出同样的奇迹。” 由 腾讯混元 (Tencent HunY...
    视频模型# AI特效# EffectMaker
    4周前
    0300
    腾讯开源 Penguin-VL:抛弃 CLIP,用大语言模型初始化视觉编码器,重塑多模态效率极限

    腾讯开源 Penguin-VL:抛弃 CLIP,用大语言模型初始化视觉编码器,重塑多模态效率极限

    “当所有人都在堆砌数据和参数时,腾讯选择了一条更本质的路:重新设计视觉编码器,让‘看’和‘想’在同一个空间里对话。” 在视觉语言模型(VLM)领域,主流范式长期依赖通过大规模对比学习(如 CLIP、S...
    多模态模型# Penguin-VL# Penguin-VL-2B# Penguin-VL-8B
    1个月前
    0550
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Flova

    新Flova

    Flova AI 最近宣布集成字节跳动最新的视频生成模型——Seedance 2.0。这不仅仅是一个新模型的上线,更意味着普通创作者现在也能轻松制作出长达 60 至 90 秒、角色稳定、剧情连贯的电影级短剧。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    BuildCores

    BuildCores

    BuildCores 是一款集 3D 组装预览、智能兼容性检测、全球比价 于一体的在线装机工具。无论你是首次装机的新手,还是追求极致性能的发烧友,都能在手机或电脑上轻松规划、验证并优化你的 PC 配置。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    查看完整榜单