模型 | 第29页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

腾讯开源3D世界生成模型HunyuanWorld 1.0：从文本或图像生成可漫游、可交互的三维世界

如何让一段文字或一张图片，自动生成一个可以自由探索、具备空间一致性且支持后续编辑的三维场景？这是计算机视觉与图形学长期追求的目标。当前主流方法面临两难：基于视频或多视角图像生成的方法，虽然能产出视...

5个月前

01030

阿里Qwen团队发布 Qwen3-235B-A22B-Thinking-2507：深度推理能力再升级

在持续三个月的优化后，阿里Qwen团队正式推出 Qwen3-235B-A22B-Thinking-2507 版本。该模型在逻辑推理、数学、科学、编程及学术任务上的表现显著提升，进一步巩固了其在开源思维...

大语言模型 # Qwen3-235B-A22B-Thinking-2507 # 推理模型

5个月前

01930

蚂蚁集团发布Ming-lite-omni v1.5：全模态能力的全面升级

由蚂蚁集团旗下的百灵大模型（Ling）团队研发的全模态大模型 Ming-lite-omni v1.5 正式发布。作为对初代模型的全面升级，v1.5 版本在图像、文本、视频、语音等多种模态的理解与生...

多模态模型 # Ming-lite-omni v1.5 # 蚂蚁集团

5个月前

02870

Boson AI 发布 Higgs Audio V2：首个开源的多说话者情感语音生成模型

Boson AI 正式推出 Higgs Audio Generation 版本2（Higgs Audio V2），这是Boson AI在音频生成领域的一次重要突破。该模型具备强大的多说话者对话生成能力...

语音模型 # Boson AI # Higgs Audio V2

5个月前

02200

阿里通义千问推出机器翻译模型Qwen-MT：92种语言互译，打造高效智能翻译新体验

阿里通义千问团队近日通过Qwen API平台正式发布机器翻译模型Qwen-MT的最新升级版本——qwen-mt-turbo。该模型基于强大的Qwen3架构，结合超大规模多语言翻译数据与强化学习技术，在...

大语言模型 # Qwen-MT # 翻译模型

5个月前

03770

东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM

东京大学的研究人员推出一个名为 MangaVQA 的基准测试和一个名为 MangaLMM 的专门模型，用于多模态漫画理解。漫画（Manga）是一种将图像和文本以复杂方式结合的叙事形式，理解漫画需要同时...

多模态模型 # MangaLMM # MangaVQA # 东京大学

5个月前

01330

Ultra3D：一种高效且高保真的稀疏体素3D生成框架

在生成式 AI 向三维空间延伸的进程中，高质量、高分辨率的3D内容生成已成为核心挑战。尽管基于稀疏体素的方法在几何细节建模方面表现出色，但其普遍采用的双阶段扩散架构常因注意力机制的二次计算复杂度而面临...

3D模型 # 3D生成框架 # Ultra3D

5个月前

04960

交互式世界生成模型 Yume：通过输入图像、文本或视频来创建一个动态、逼真且可交互的世界

由上海市人工智能实验室、复旦大学与上海创新研究院联合研发的新型生成模型 Yume 正式亮相。该模型旨在突破传统生成式 AI 的静态局限，构建一个可探索、可控制、高保真且动态演化的虚拟世界。项目主页...

视频模型 # Yume # 交互式世界生成模型

5个月前

01750

字节跳动发布 Seed LiveInterpret 2.0：首个中英同传延迟与准确率接近人类水平的端到端语音翻译系统

在跨语言实时沟通的长期挑战中，机器能否真正替代人类同声传译？字节跳动 Seed 团队给出了迄今为止最接近“是”的答案。今日，字节跳动正式发布 Seed LiveInterpret 2.0 —— 一款...

语音模型 # Seed LiveInterpret 2.0 # 同声传译模型 # 字节跳动

5个月前

02890

浙大 × 阿里巴巴推出 OmniAvatar：首个支持音频驱动全身动画的可控虚拟人视频生成模型

在数字人、虚拟主播、AI 视频创作等领域，仅靠语音生成逼真且动作自然的虚拟形象视频，一直是生成式 AI 的关键挑战之一。现有音频驱动视频生成方法大多聚焦于面部动画，尤其是唇部同步，而对身体动作、姿态...

视频模型 # OmniAvatar # 虚拟人

5个月前

02040

谷歌发布 Gemini 2.5 Flash-Lite 稳定版：更快、更轻、更具成本效益

谷歌宣布，Gemini 2.5 Flash-Lite 正式进入稳定版本并全面开放使用。作为 Gemini 2.5 模型系列中速度最快、成本最低的成员，该模型旨在为大规模生产场景提供高性价比的智能推理能...

大语言模型 # Gemini 2.5 Flash-Lite # 谷歌

5个月前

01040

阿里Qwen团队推出新一代代码大模型 Qwen3-Coder

阿里通义Qwen团队发布全新代码大模型系列 Qwen3-Coder，这是目前 Qwen 系列中最具代理（Agent）能力的代码模型。此次发布的最大版本为 Qwen3-Coder-480B-A35B-I...

大语言模型 # Qwen Code CLI # Qwen3-Coder # 代码大模型

5个月前

01990

加载更多

模型

腾讯开源3D世界生成模型HunyuanWorld 1.0：从文本或图像生成可漫游、可交互的三维世界

阿里Qwen团队发布 Qwen3-235B-A22B-Thinking-2507：深度推理能力再升级

蚂蚁集团发布Ming-lite-omni v1.5：全模态能力的全面升级

Boson AI 发布 Higgs Audio V2：首个开源的多说话者情感语音生成模型

阿里通义千问推出机器翻译模型Qwen-MT：92种语言互译，打造高效智能翻译新体验

东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM

Ultra3D：一种高效且高保真的稀疏体素3D生成框架

交互式世界生成模型 Yume：通过输入图像、文本或视频来创建一个动态、逼真且可交互的世界

字节跳动发布 Seed LiveInterpret 2.0：首个中英同传延迟与准确率接近人类水平的端到端语音翻译系统

浙大 × 阿里巴巴推出 OmniAvatar：首个支持音频驱动全身动画的可控虚拟人视频生成模型

谷歌发布 Gemini 2.5 Flash-Lite 稳定版：更快、更轻、更具成本效益

阿里Qwen团队推出新一代代码大模型 Qwen3-Coder

Fogsight (雾象)

朱雀大模型检测

ITELLOU

Tripo

新人生 K 线

秒哒

模型

网址

Fogsight (雾象)

朱雀大模型检测

ITELLOU

Tripo

新人生 K 线

秒哒