模型 | 第48页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

交互式世界生成模型 Yume：通过输入图像、文本或视频来创建一个动态、逼真且可交互的世界

由上海市人工智能实验室、复旦大学与上海创新研究院联合研发的新型生成模型 Yume 正式亮相。该模型旨在突破传统生成式 AI 的静态局限，构建一个可探索、可控制、高保真且动态演化的虚拟世界。项目主页...

视频模型 # Yume # 交互式世界生成模型

9个月前

02440

字节跳动发布 Seed LiveInterpret 2.0：首个中英同传延迟与准确率接近人类水平的端到端语音翻译系统

在跨语言实时沟通的长期挑战中，机器能否真正替代人类同声传译？字节跳动 Seed 团队给出了迄今为止最接近“是”的答案。今日，字节跳动正式发布 Seed LiveInterpret 2.0 —— 一款...

语音模型 # Seed LiveInterpret 2.0 # 同声传译模型 # 字节跳动

9个月前

03430

浙大 × 阿里巴巴推出 OmniAvatar：首个支持音频驱动全身动画的可控虚拟人视频生成模型

在数字人、虚拟主播、AI 视频创作等领域，仅靠语音生成逼真且动作自然的虚拟形象视频，一直是生成式 AI 的关键挑战之一。现有音频驱动视频生成方法大多聚焦于面部动画，尤其是唇部同步，而对身体动作、姿态...

视频模型 # OmniAvatar # 虚拟人

9个月前

02600

谷歌发布 Gemini 2.5 Flash-Lite 稳定版：更快、更轻、更具成本效益

谷歌宣布，Gemini 2.5 Flash-Lite 正式进入稳定版本并全面开放使用。作为 Gemini 2.5 模型系列中速度最快、成本最低的成员，该模型旨在为大规模生产场景提供高性价比的智能推理能...

大语言模型 # Gemini 2.5 Flash-Lite # 谷歌

9个月前

01290

阿里Qwen团队推出新一代代码大模型 Qwen3-Coder

阿里通义Qwen团队发布全新代码大模型系列 Qwen3-Coder，这是目前 Qwen 系列中最具代理（Agent）能力的代码模型。此次发布的最大版本为 Qwen3-Coder-480B-A35B-I...

大语言模型 # Qwen Code CLI # Qwen3-Coder # 代码大模型

9个月前

02210

南洋理工大学 S-Lab 提出新型对象移除框架ObjectClear ，精准消除物体及其阴影、反射

在图像编辑任务中，移除一个物体看似简单，实则极具挑战。不仅要将目标对象从画面中“擦除”，还需同步清除其带来的视觉副产物——如阴影、倒影、高光、遮挡痕迹等。若处理不当，即便主体消失，残留的影子或反光仍...

图像模型 # ObjectClear # 南洋理工大学 # 对象移除

9个月前

04720

快手 Kwaipilot 团队开源 40B 大模型 KAT-V1-40B ：用 AutoThink 实现智能“何时思考”

在当前大模型普遍追求“深度推理”的趋势下，一个更现实的问题逐渐浮现：是否每个问题都需要长篇思维链？过度使用思维链（Chain-of-Thought, CoT）不仅增加计算开销、拖慢响应速度，还可能导...

大语言模型 # KAT-V1-40B # 快手

9个月前

01380

SongBloom：一种实现结构连贯与高保真度的全曲生成新框架

在自动音乐生成领域，生成一首具备完整结构、风格统一、人声与伴奏和谐融合的全长歌曲，依然是极具挑战性的任务。现有方法——无论是基于语言模型的自回归生成，还是基于扩散模型的音频合成——往往面临两难困境...

语音模型 # SongBloom # 音乐生成

9个月前

01070

字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

字节跳动Seed团队近日推出一款面向复杂操作任务的大规模机器人模型——Seed GR-3（Generalist Robot Model-3）。该模型具备良好的泛化能力，支持长序列任务执行与多模态指令理...

多模态模型 # Seed GR-3 # 字节跳动

9个月前

01980

DMOSpeech 2：用强化学习优化语音合成的时长预测

在零样本文本到语音（TTS）领域，基于扩散模型的系统近年来取得了显著进展。然而，大多数方法仍难以实现对整个生成流程的端到端感知质量优化——尤其是时长预测这一关键组件，长期依赖自监督训练，未能与语音生成...

语音模型 # DMOSpeech 2 # TTS 框架

9个月前

03510

告别旧版，迎接进化！阿里Qwen团队发布Qwen3-235B-A22B-Instruct-2507

在与社区深入交流并综合反馈后，阿里Qwen团队做出一项重要决策：停止使用混合“思维模式”（Thinking Mode）的训练方式，转而采用 Instruct 与 Thinking 模型分离训练的新策...

大语言模型 # Qwen3-235B-A22B-Instruct-2507

9个月前

06690

CoPart：基于“部分”的3D生成框架，让AI更精细地理解3D对象

在3D内容生成领域，早期的研究主要依赖于2D渲染图像的多视角驱动方法。然而，随着技术的发展，3D原生扩散模型逐渐展现出更强的生成能力，尤其是在几何建模和纹理细节方面，因为它直接利用了真实3D数据所包含...

3D模型 # 3D生成 # CoPart

9个月前

03370

加载更多

模型

交互式世界生成模型 Yume：通过输入图像、文本或视频来创建一个动态、逼真且可交互的世界

字节跳动发布 Seed LiveInterpret 2.0：首个中英同传延迟与准确率接近人类水平的端到端语音翻译系统

浙大 × 阿里巴巴推出 OmniAvatar：首个支持音频驱动全身动画的可控虚拟人视频生成模型

谷歌发布 Gemini 2.5 Flash-Lite 稳定版：更快、更轻、更具成本效益

阿里Qwen团队推出新一代代码大模型 Qwen3-Coder

南洋理工大学 S-Lab 提出新型对象移除框架ObjectClear ，精准消除物体及其阴影、反射

快手 Kwaipilot 团队开源 40B 大模型 KAT-V1-40B ：用 AutoThink 实现智能“何时思考”

SongBloom：一种实现结构连贯与高保真度的全曲生成新框架

字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

DMOSpeech 2：用强化学习优化语音合成的时长预测

告别旧版，迎接进化！阿里Qwen团队发布Qwen3-235B-A22B-Instruct-2507

CoPart：基于“部分”的3D生成框架，让AI更精细地理解3D对象

Pika

ClawHub

模型

网址

Pika

ClawHub