模型 | 第6页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

CoCo：让 AI 像程序员一样“写代码画图”，彻底解决文生图的文字与布局难题

如果你曾让 AI 画一张“带有具体数据的饼图”、“排版精美的餐厅菜单”或“标注了坐标轴的数学函数图”，结果大概率会失望：文字变成乱码、布局歪七扭八、数据完全错误。这是因为现有的文生图模型依赖模糊的自...

多模态模型 # CoCo

3周前

0130

ID-LoRA：让AI同时“克隆”你的长相和声音，还能配合场景表演

你有没有想过，如果AI能根据一张照片和一段声音，就能生成一个“数字分身”，让这个分身在任何场景中说话、表演，而且声音和口型都能完美匹配，这会带来什么可能？这正是特拉维夫大学等研究机构最新发布的 ID...

视频模型 # ID-LoRA # 数字人

3周前

0280

KokoClone：极速实时多语言语音克隆系统，基于 Kokoro-ONNX 驱动

KokoClone 是一款构建在 Kokoro-ONNX（目前最快的开源神经语音合成引擎之一）之上的高性能语音克隆系统。它打破了传统 TTS（文本转语音）和语音转换的延迟瓶颈，实现了快速、实时兼容的多...

语音模型 # KokoClone # Kokoro-ONNX

4周前

0220

黑森林实验室发布 FLUX.2 [klein] 9B-KV：多参考图像编辑速度飙升 2.5 倍

黑森林实验室（Black Forest Labs）今日正式推出 FLUX.2 [klein] 9B-KV，这是其备受赞誉的轻量级图像编辑模型 FLUX.2 [klein] 9B 的专用优化变体。新版本...

图像模型 # FLUX.2 [klein] 9B-KV # 黑森林实验室

4周前

01700

上海 AI 实验室发布 InternVL-U：40 亿参数统一多模态模型，理解、推理、生成与编辑全能合一

在人工智能领域，模型往往面临“专才”与“全才”的抉择：有的擅长理解图片内容，有的精于生成精美画作，但鲜有模型能同时精通“看、想、画、改”四项技能。上海人工智能实验室正式推出 InternVL-U，一...

多模态模型 # InternVL-U # 上海 AI 实验室

4周前

0540

英伟达发布 Nemotron 3 Super：1200 亿参数 MoE 架构，智能体吞吐量飙升 5 倍

随着企业 AI 应用从简单的聊天机器人向复杂的多智能体系统（Multi-Agent Systems）演进，两大瓶颈日益凸显：上下文爆炸导致成本激增与目标漂移，以及每一步都需大模型推理带来的高昂"思考税...

大语言模型 # NVIDIA Nemotron 3 Super # 英伟达

4周前

0470

Hume AI 开源 TTS 模型 TADA：文本 - 声学一对一同步，推理速度提升 5 倍且零幻觉

在基于大语言模型（LLM）的文本转语音（TTS）领域，开发者长期面临一个“不可能三角”：速度、质量与可靠性难以兼得。传统的 LLM-TTS 系统往往因为文本与音频表示的不匹配，导致推理缓慢、内存消耗巨...

语音模型 # Hume AI # TADA # TTS

4周前

0670

Fish Audio 开源 Fish Audio S2 Pro：支持自然语言指令的精细化 TTS 模型，单卡 H200 实时因子低至 0.195

在文本转语音（TTS）领域，如何在保持高保真音质的同时，实现对韵律、情感和副语言特征（如笑声、呼吸声）的精细化控制，一直是行业难点。今日，Fish Audio 正式开源 S2 模型及其完整的生产级推理...

语音模型 # Fish Audio # Fish Audio S2 Pro

4周前

0140

谷歌发布 Gemini Embedding 2：首个原生多模态嵌入模型，支持文本/图像/音视频统一检索

谷歌今日通过 Gemini API 和 Vertex AI 正式开放 Gemini Embedding 2 的公开预览。这是谷歌首个基于 Gemini 架构构建的原生多模态嵌入模型，能够将文本、图像...

多模态模型 # Gemini Embedding 2 # 多模态嵌入模型 # 谷歌

4周前

0190

腾讯开源SongGeneration 2：歌词准确率超越 Suno v5，首个真正达到“商业级”的开源音乐大模型

腾讯 AI 实验室重磅发布 LeVo 2 (SongGeneration 2) —— 一个旨在打破开源 AI 音乐天花板的基础模型。经过大规模、严格的专家盲测评估，LeVo 2 在音乐性、歌词准确性和...

语音模型 # SongGeneration 2 # 腾讯

4周前

0960

EffectMaker：腾讯混元新作，无需微调即可“克隆”电影级特效，让普通人也能做 VFX 大师

“好莱坞大片里那些令人震撼的火焰、冰霜、能量波，曾经需要数百万美元和数年训练才能制作。现在，只需一段参考视频和一张照片，AI 就能为你‘克隆’出同样的奇迹。” 由腾讯混元 (Tencent HunY...

视频模型 # AI特效 # EffectMaker

4周前

0300

腾讯开源 Penguin-VL：抛弃 CLIP，用大语言模型初始化视觉编码器，重塑多模态效率极限

“当所有人都在堆砌数据和参数时，腾讯选择了一条更本质的路：重新设计视觉编码器，让‘看’和‘想’在同一个空间里对话。” 在视觉语言模型（VLM）领域，主流范式长期依赖通过大规模对比学习（如 CLIP、S...

多模态模型 # Penguin-VL # Penguin-VL-2B # Penguin-VL-8B

1个月前

0550

加载更多

模型