模型 | 第21页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

OPPO AI实验室推出新范式Chain-of-Agents（CoA）：用于在单个模型中实现多智能体系统的复杂问题解决能力

OPPO AI实验室推出一种新的范式——Chain-of-Agents（CoA），用于在单个模型中实现多智能体系统（Multi-Agent Systems, MAS）的复杂问题解决能力。传统的多智能体...

大语言模型 # Chain-of-Agents # CoA # OPPO AI实验室

4个月前

01320

Thyme：会生成代码的多模态模型，突破“图像思考”边界

由快手联合中科院自动化所、南京大学、清华大学、中国科学技术大学共同研发的Thyme，重新定义了视觉多模态模型的能力边界。它不再局限于传统的“用图像思考”，而是通过自主生成、执行代码，完成多样化的图像处...

多模态模型 # Thyme # 多模态模型

4个月前

01150

英伟达推出小型语言模型 Nemotron-Nano-9B-V2：更小、更快、可控制“思考”的AI

当AI模型不再一味追求“更大”，而是转向“更高效”时，小型语言模型（SLM）的时代正悄然到来。继麻省理工学院衍生公司 Liquid AI 推出可在智能手表上运行的视觉模型、谷歌发布手机端运行的轻量级...

大语言模型 # Nemotron-Nano-9B-V2 # 英伟达

4个月前

02380

多模态扩散架构MoDA：用于生成具有任意身份和语音音频的“会说话的头像”

阿里达摩院、浙江大学、湖畔实验室的研究人员推出多模态扩散架构MoDA，用于生成具有任意身份和语音音频的“会说话的头像”（talking head）。项目主页：https://lixinyyang.g...

视频模型 # MoDA # 多模态

4个月前

01100

阿里国际发布多模态大语言模型Ovis2.5：原生分辨率视觉感知与深度推理的双重突破

阿里国际正式推出 Ovis2.5 —— Ovis2 的继任者，一款在原生分辨率视觉理解和多模态推理能力上实现显著跃升的开源多模态大语言模型（MLLM）。 GitHub：https://github.c...

多模态模型 # Ovis2.5 # 多模态大语言模型 # 阿里国际

4个月前

02710

清华、上交大等团队提出 SSRL：无需外部搜索的强化学习新范式

在当前主流的“代理式搜索”（Agentic Search）系统中，大型语言模型（LLM）通常通过调用外部搜索引擎（如 Google、Bing 或专用 API）来获取实时信息，以回答复杂问题。这一模式虽...

大语言模型 # SSRL # 强化学习

4个月前

01570

阿里 Qwen 团队发布Qwen-Image-Edit：支持语义与外观双重编辑的图像编辑模型

阿里Qwen项目组今日正式推出 Qwen-Image-Edit，基于 Qwen-Image 20B 模型进一步训练而成，是 Qwen-Image 系列在图像编辑方向的重要延伸。该模型不仅继承了 Qw...

图像模型 # Qwen-Image-Edit # 图像编辑模型

4个月前

01830

文本到音频生成模型TANGOFLUX：从文本描述中快速、忠实地生成高质量的音频内容

随着人工智能技术的发展，文本到音频（TTA）生成模型正在逐渐改变我们与数字内容互动的方式。然而，创建高质量且自然的音频输出仍然是一个复杂的技术挑战，尤其是在对齐模型以产生符合人类期望的音频方面。新加坡...

语音模型 # TANGOFLUX # 文本到音频生成模型

4个月前

03370

视觉语言模型ClipTagger-12B：开源视频理解新标杆，性能对标 GPT-4.1，成本低至 1/15

程序化视频理解正在成为构建智能视觉系统的基础设施。从内容审核到自动化标注，从辅助功能到视频搜索引擎，开发者需要一种高效、可靠的方式，将原始视频帧转化为结构化、可搜索、可操作的数据。为此，Infere...

多模态模型 # ClipTagger-12B # 视觉语言模型

4个月前

03800

基于多模态大语言模型的高性能UI智能体UI-Venus

蚂蚁集团推出基于多模态大语言模型（MLLM）的高性能UI智能体（UI Agent）UI-Venus，它仅以屏幕截图作为输入，通过强化微调（Reinforcement Fine-Tune, RFT）技术...

多模态模型 # UI-Venus # UI智能体

4个月前

02050

Nunchaku发布量化版Qwen-Image模型，支持高效图像生成

Nunchaku 官方宣布，其基于Qwen-Image的四个量化版本模型已正式上线 Hugging Face和魔塔！这些模型专为高效文本到图像生成而优化，尤其在复杂文本渲染方面表现突出。 Huggin...

图像模型 # Nunchaku # Qwen-Image

4个月前

04940

Meta AI 发布 DINOv3：无需微调、无需标注的下一代视觉模型

Meta AI 正式推出 DINOv3 —— 一项在计算机视觉领域具有里程碑意义的自监督学习模型。它不仅刷新了密集预测任务的性能上限，更首次证明：一个通用、冻结的视觉骨干，可以在无需微调的情况下，在多...

图像模型 # DINOv3 # 视觉模型

4个月前

05010

加载更多

模型

OPPO AI实验室推出新范式Chain-of-Agents（CoA）：用于在单个模型中实现多智能体系统的复杂问题解决能力

Thyme：会生成代码的多模态模型，突破“图像思考”边界

英伟达推出小型语言模型 Nemotron-Nano-9B-V2：更小、更快、可控制“思考”的AI

多模态扩散架构MoDA：用于生成具有任意身份和语音音频的“会说话的头像”

阿里国际发布多模态大语言模型Ovis2.5：原生分辨率视觉感知与深度推理的双重突破

清华、上交大等团队提出 SSRL：无需外部搜索的强化学习新范式

阿里 Qwen 团队发布Qwen-Image-Edit：支持语义与外观双重编辑的图像编辑模型

文本到音频生成模型TANGOFLUX：从文本描述中快速、忠实地生成高质量的音频内容

视觉语言模型ClipTagger-12B：开源视频理解新标杆，性能对标 GPT-4.1，成本低至 1/15

基于多模态大语言模型的高性能UI智能体UI-Venus

Nunchaku发布量化版Qwen-Image模型，支持高效图像生成

Meta AI 发布 DINOv3：无需微调、无需标注的下一代视觉模型

Fogsight (雾象)

ITELLOU

云文档查找工具

Google AI Studio

Poe API

OpenSkills

模型

网址

Fogsight (雾象)

ITELLOU

云文档查找工具

Google AI Studio

Poe API

OpenSkills