模型 | 第5页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

Cohere 重磅开源 Tiny Aya：33 亿参数撬动 70+ 语言，手机离线也能跑的“多语言神器”

在多语言 AI 领域，长期存在一个悖论：要么模型巨大无比、依赖云端算力，只能覆盖主流语言；要么模型轻量但能力孱弱，无法处理复杂的小语种任务。今日，在印度 AI 峰会期间，企业级 AI 独角兽 Coh...

大语言模型 # Cohere # Tiny Aya

4周前

0280

Capybara：统一视觉创作模型，一个模型搞定文生图、视频生成与全能编辑

在当前的 AI 视觉创作领域，我们正陷入一种“工具碎片化”的困境：生成图片用 Midjourney，生成视频换 Runway，修图得开 Photoshop，剪视频又要另一套流程。这些工具不仅接口割裂...

视频模型 # Capybara # 统一视觉创作模型

4周前

0680

加州理工推出Conversational Image Segmentation：对话式图像分割，让 AI 真正听懂“这个稳不稳”、“那个能不能坐”

在传统的计算机视觉中，AI 擅长回答“这是什么？”（分类）或“它在哪里？”（检测/分割）。如果你问它：“把左边那个红色的杯子框出来”，它能做得很好。但如果你问：“哪个行李箱可以单独拿走而不弄倒整堆行...

多模态模型 # Conversational Image Segmentation # 对话式图像分割

4周前

0160

字节跳动开源 BitDance：14B 参数自回归模型，生成速度超越扩散模型 30 倍

在 AI 绘画领域，长期存在着“画质”与“速度”的博弈，以及“扩散模型”与“自回归模型”的路线之争。扩散模型（如 Stable Diffusion）画质优异但推理步骤繁琐；自回归模型（类似 LLM 生...

图像模型 # BitDance # 字节跳动 # 自回归模型

4周前

01830

TADA：给AI音乐生成装上"调音台"，让创作精准可控

想象一下，你对AI说"生成一首桑巴舞曲"，它确实生成了一段不错的音乐。但你现在觉得节奏稍微快了点，或者想把女声换成男声，又或者想加点钢琴伴奏——用传统的文字提示，你只能说"一首快节奏的男性演唱桑巴舞曲...

语音模型 # TADA # 音频扩散模型

4周前

0170

阿里发布Qwen3.5 系列大模型：两大旗舰模型登场，多项评测超越国际一线

今天下午，阿里并未进行大规模宣传，而是在其官方对话页面chat.qwen.ai上低调上线了Qwen3.5系列的两款全新大语言模型——Qwen3.5-Plus与Qwen3.5-397B-A17B。项目...

大语言模型早报 # Qwen3.5 # Qwen3.5-397B-A17B # Qwen3.5-Plus

4周前

0270

Qwen-Image-Edit-Causal：用分块因果注意力加速图像编辑推理

Light AI 近日发布了 Qwen-Image-Edit-Causal V1.0，这是对 Qwen-Image-Edit-2511 的一次关键优化。新模型通过引入分块因果注意力（block ca...

图像模型 # Qwen-Image-Edit-2511 # Qwen-Image-Edit-Causal

4周前

0510

NineNineSix 开源 KaniTTS2：4 亿参数实时对话 TTS 模型，支持语音克隆与多语言

AI 初创公司 NineNineSix 正式开源其新一代文本转语音（TTS）模型 KaniTTS2。该模型专为低延迟、高自然度的实时对话场景设计，支持语音克隆、多语言输出，并提供完整的从零预训练代码框...

语音模型 # KaniTTS2 # TTS 模型

4周前

0270

让视频"无中生有"的AI魔术师！PISCO：基于稀疏控制的精确视频实例插入技术

想象一下，你拍了一段空无一人的街道视频，现在想把一只奔跑的猫放进画面里——不仅要让它看起来真实，还要让它和周围环境产生互动：地上要有影子，经过水坑要有倒影，被路灯照到要反光。更神奇的是，你只需要告诉A...

视频模型 # PISCO # 视频编辑

4周前

0150

京东开源 JoyAI-LLM-Flash：3B 激活参数 MoE 模型，专为智能体与高吞吐场景优化

京东在 Hugging Face 正式开源其最新大语言模型 JoyAI-LLM-Flash，标志着其在高效、低成本、智能体友好型 AI 基础模型领域的重大进展。模型：https://huggingf...

大语言模型 # JoyAI-LLM-Flash # 京东

4周前

0390

字节跳动发布豆包大模型2.0：数学推理顶尖，复杂任务执行强，API价格仅为竞品五分之一

继 Seedance 2.0 视频模型和 Seedream 5.0 Lite 图像模型后，字节跳动于 2 月 14 日正式推出豆包大模型 2.0（Doubao-Seed-2.0）系列。新版本针对大规...

大语言模型早报 # Doubao-Seed-2.0 # 字节跳动 # 豆包大模型2.0

1个月前

0210

Kyutai 开源 Hibiki-Zero：3B 参数实时语音翻译模型，无需词级对齐，支持音色迁移

实时语音翻译的核心挑战在于如何在翻译质量与系统延迟之间取得最佳平衡。传统方法通常需要大量精细标注的词级对齐数据来指导模型何时开始翻译，这不仅成本高昂，也极大地限制了模型向新语言的扩展能力。为彻底解决...

语音模型 # Hibiki-Zero # 实时语音翻译模型