模型 | 第46页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

新型统一多模态模型家族 BLIP3-o：同时支持图像理解和图像生成任务

Salesforce、马里兰大学、弗吉尼亚理工大学、纽约大学、华盛顿大学和加州大学戴维斯分校的研究人员推出新型统一多模态模型家族 BLIP3-o ，同时支持图像理解和图像生成任务。多模态模型是指能够处...

7个月前

02170

A-M-team推出32B密集语言模型AM-Thinking-v1：专注增强推理能力

A-M-team推出了AM-Thinking-v1，一款基于Qwen 2.5-32B-Base构建的32B密集语言模型，专注于提升推理能力。在推理基准测试中，AM-Thinking-v1表现出色，可媲...

大语言模型 # AM-Thinking-v1 # 推理模型

7个月前

03780

阿里通义实验室 Wan 团队正式释出Wan2.1-VACE模型：支持视频生成与编辑的模型

阿里通义实验室Wan 团队正式释出了Wan2.1-VACE模型，这是一款支持视频生成与编辑的模型，单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全...

视频模型

7个月前

02180

Stability AI发布可在智能手机运行的音频生成模型Stable Audio Open Small

AI 初创公司 Stability AI 发布了 Stable Audio Open Small，这是一款专为移动设备设计的音频生成模型。据公司宣称，这是目前市场上最快的音频生成模型，并且效率高到可以...

语音模型 # Stability AI # Stable Audio Open Small

7个月前

02130

多模态语音交互的端到端大型语音模型 VITA-Audio

腾讯优图实验室、南京大学和厦门大学的研究人员推出用于高效多模态语音交互的端到端大型语音模型 VITA-Audio，VITA-Audio 的目标是通过快速生成音频和文本令牌，显著降低流式语音交互中的延迟...

语音模型 # VITA-Audio # 语音模型

7个月前

02190

天工AI推出用于多模态理解和推理任务的多模态奖励模型Skywork-VL Reward

天工AI（Skywork AI）推出一个用于多模态理解和推理任务的多模态奖励模型Skywork-VL Reward，此模型是基于Qwen2.5-VL-7B-Instruct训练，Skywork-VL ...

多模态模型 # Skywork-VL Reward # 多模态奖励模型 # 天工AI

7个月前

02970

基于 Qwen3 的混合专家（MoE）模型Arcana Qwen3 2.4B A0.6B

Arcana Qwen3 2.4B A0.6B 是一个基于 Qwen3 的混合专家（MoE）模型，总参数量为 24 亿，每个专家模型拥有 6 亿参数。该模型旨在提供更高的准确性、更高的效率和更低的内存...

大语言模型 # Arcana Qwen3 2.4B A0.6B # MoE模型 # Qwen3

7个月前

02260

阶跃星辰推出用于生成高保真度和可控制的纹理化3D资产的开放框架Step1X-3D

阶跃星辰推出一个用于生成高保真度和可控制的纹理化3D资产的开放框架Step1X-3D，该框架旨在解决3D生成领域面临的挑战，包括数据稀缺性、算法限制和生态系统碎片化。Step1X-3D通过以下三个主要...

3D模型 # 3D资产 # Step1X-3D # 阶跃星辰

7个月前

02030

苹果推出高效视觉语言模型FastVLM：通过优化视觉编码器来提高模型在处理高分辨率图像任务时的效率和性能

苹果推出一种高效视觉语言模型FastVLM，旨在通过优化视觉编码器（Vision Encoder）来提高模型在处理高分辨率图像任务时的效率和性能。FastVLM的核心是其创新的视觉编码器 FastVi...

多模态模型 # FastVLM # 苹果 # 视觉语言模型

7个月前

02530

字节跳动推出专注于提升多模态理解与推理能力的视觉-语言基础模型Seed1.5-VL

字节跳动正式推出 Seed1.5-VL，这是一款专注于提升多模态理解与推理能力的视觉-语言基础模型。Seed1.5-VL 不仅在视觉和视频理解任务中表现出色，还在智能体相关任务及复杂推理挑战中展现了卓...

多模态模型 # Seed1.5-VL # 字节跳动 # 视觉-语言基础模型

7个月前

03430

基于MiniCPM-V构建的开源端侧智能体大模型AgentCPM-GUI：，接受手机屏幕图像作为输入，自动执行用户提出的任务

AgentCPM-GUI是由清华大学THUNLP实验室与面壁智能团队联合开发的开源端侧智能体大模型，基于MiniCPM-V构建，总参数量8B，接受手机屏幕图像作为输入，自动执行用户提出的任务。 Git...

多模态模型 # AgentCPM-GUI # MiniCPM-V # 智能体大模型

7个月前

03320

新型图像训练自由方法 IP-Composer：从多个视觉概念中合成图像

特拉维夫大学和英伟达的研究人员介绍了一种名为 IP-Composer 的新型训练自由（training-free）方法，用于从多个视觉概念中合成图像。该方法通过自然语言描述从输入图像中提取特定概念，并...

图像模型 # IP-Composer

7个月前

03520

加载更多

模型

新型统一多模态模型家族 BLIP3-o：同时支持图像理解和图像生成任务

A-M-team推出32B密集语言模型AM-Thinking-v1：专注增强推理能力

阿里通义实验室 Wan 团队正式释出Wan2.1-VACE模型：支持视频生成与编辑的模型

Stability AI发布可在智能手机运行的音频生成模型Stable Audio Open Small

多模态语音交互的端到端大型语音模型 VITA-Audio

天工AI推出用于多模态理解和推理任务的多模态奖励模型Skywork-VL Reward

基于 Qwen3 的混合专家（MoE）模型Arcana Qwen3 2.4B A0.6B

阶跃星辰推出用于生成高保真度和可控制的纹理化3D资产的开放框架Step1X-3D

苹果推出高效视觉语言模型FastVLM：通过优化视觉编码器来提高模型在处理高分辨率图像任务时的效率和性能

字节跳动推出专注于提升多模态理解与推理能力的视觉-语言基础模型Seed1.5-VL

基于MiniCPM-V构建的开源端侧智能体大模型AgentCPM-GUI：，接受手机屏幕图像作为输入，自动执行用户提出的任务

新型图像训练自由方法 IP-Composer：从多个视觉概念中合成图像

人生 K 线

Fogsight (雾象)

秒哒

朱雀大模型检测

Higgsfield AI

A2UI

模型

网址

人生 K 线

Fogsight (雾象)

秒哒

朱雀大模型检测

Higgsfield AI

A2UI