模型 | 第39页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

字节跳动 Seed 团队发布 Seed-OSS 系列开源模型：36B 参数，512K 长上下文，可灵活调整思考长度

字节跳动Seed团队正式推出Seed-OSS系列开放权重模型，该系列均为36B参数规模，聚焦长上下文处理、推理能力与代理任务优化，以Apache-2.0许可证开源，为开发者与研究社区提供高实用性工具...

大语言模型 # Seed-OSS # 字节跳动

8个月前

02840

视频多模态大语言模型RynnEC：专为具身认知任务设计

阿里达摩院、湖畔实验室和浙江大学的研究人员推出视频多模态大语言模型RynnEC，专为具身认知任务设计。它通过结合区域编码器和掩码解码器，能够灵活地处理视频中的区域级交互，从而为具身代理提供对物理世界的...

多模态模型 # RynnEC # 视频多模态大语言模型

8个月前

01110

新型3D 编辑框架TINKER：用于高保真度的 3D 编辑

浙江大学和浙江工业大学的研究人员推出新型3D 编辑框架TINKER ，用于高保真度的 3D 编辑，能够在仅有少量输入图像（甚至一张或两张）的情况下实现多视角一致的编辑效果，且无需针对每个场景进行优化...

3D模型 # 3D 编辑框架 # TINKER

8个月前

03040

Surya：NASA与IBM联合推出日球物理学AI基础模型，3.66亿参数开源可微调

由NASA、IBM及合作伙伴联合开发的Surya，是全球首个面向日球物理学的开源AI基础模型。该模型拥有3.66亿参数，基于NASA太阳动力学天文台（SDO）9年的多仪器观测数据（约218TB）预训练...

大语言模型 # Surya # 日球物理学

8个月前

02510

OPPO AI实验室推出新范式Chain-of-Agents（CoA）：用于在单个模型中实现多智能体系统的复杂问题解决能力

OPPO AI实验室推出一种新的范式——Chain-of-Agents（CoA），用于在单个模型中实现多智能体系统（Multi-Agent Systems, MAS）的复杂问题解决能力。传统的多智能体...

大语言模型 # Chain-of-Agents # CoA # OPPO AI实验室

8个月前

01630

Thyme：会生成代码的多模态模型，突破“图像思考”边界

由快手联合中科院自动化所、南京大学、清华大学、中国科学技术大学共同研发的Thyme，重新定义了视觉多模态模型的能力边界。它不再局限于传统的“用图像思考”，而是通过自主生成、执行代码，完成多样化的图像处...

多模态模型 # Thyme # 多模态模型

8个月前

01300

英伟达推出小型语言模型 Nemotron-Nano-9B-V2：更小、更快、可控制“思考”的AI

当AI模型不再一味追求“更大”，而是转向“更高效”时，小型语言模型（SLM）的时代正悄然到来。继麻省理工学院衍生公司 Liquid AI 推出可在智能手表上运行的视觉模型、谷歌发布手机端运行的轻量级...

大语言模型 # Nemotron-Nano-9B-V2 # 英伟达

8个月前

02540

多模态扩散架构MoDA：用于生成具有任意身份和语音音频的“会说话的头像”

阿里达摩院、浙江大学、湖畔实验室的研究人员推出多模态扩散架构MoDA，用于生成具有任意身份和语音音频的“会说话的头像”（talking head）。项目主页：https://lixinyyang.g...

视频模型 # MoDA # 多模态

8个月前

01200

InfiniteTalk：支持稀疏帧输入的全动态音频驱动视频生成，实现全身协调的说话视频生成

在虚拟人、影视后期、跨语言内容本地化等场景中，理想的配音技术不仅要实现精准的唇部同步，还需让头部运动、面部表情、身体姿态自然地跟随语音节奏变化，同时保持人物身份一致性。项目主页：https://me...

视频模型 # InfiniteTalk # 对口型

7个月前

01110

清华、上交大等团队提出 SSRL：无需外部搜索的强化学习新范式

在当前主流的“代理式搜索”（Agentic Search）系统中，大型语言模型（LLM）通常通过调用外部搜索引擎（如 Google、Bing 或专用 API）来获取实时信息，以回答复杂问题。这一模式虽...

大语言模型 # SSRL # 强化学习

8个月前

02180

阿里 Qwen 团队发布Qwen-Image-Edit：支持语义与外观双重编辑的图像编辑模型

阿里Qwen项目组今日正式推出 Qwen-Image-Edit，基于 Qwen-Image 20B 模型进一步训练而成，是 Qwen-Image 系列在图像编辑方向的重要延伸。该模型不仅继承了 Qw...

图像模型 # Qwen-Image-Edit # 图像编辑模型

8个月前

02680

阿里国际发布多模态大语言模型Ovis2.5：原生分辨率视觉感知与深度推理的双重突破

阿里国际正式推出 Ovis2.5 —— Ovis2 的继任者，一款在原生分辨率视觉理解和多模态推理能力上实现显著跃升的开源多模态大语言模型（MLLM）。 GitHub：https://github.c...

多模态模型 # Ovis2.5 # 多模态大语言模型 # 阿里国际

8个月前

03290

加载更多

模型

字节跳动 Seed 团队发布 Seed-OSS 系列开源模型：36B 参数，512K 长上下文，可灵活调整思考长度

视频多模态大语言模型RynnEC：专为具身认知任务设计

新型3D 编辑框架TINKER：用于高保真度的 3D 编辑

Surya：NASA与IBM联合推出日球物理学AI基础模型，3.66亿参数开源可微调

OPPO AI实验室推出新范式Chain-of-Agents（CoA）：用于在单个模型中实现多智能体系统的复杂问题解决能力

Thyme：会生成代码的多模态模型，突破“图像思考”边界

英伟达推出小型语言模型 Nemotron-Nano-9B-V2：更小、更快、可控制“思考”的AI

多模态扩散架构MoDA：用于生成具有任意身份和语音音频的“会说话的头像”

InfiniteTalk：支持稀疏帧输入的全动态音频驱动视频生成，实现全身协调的说话视频生成

清华、上交大等团队提出 SSRL：无需外部搜索的强化学习新范式

阿里 Qwen 团队发布Qwen-Image-Edit：支持语义与外观双重编辑的图像编辑模型

阿里国际发布多模态大语言模型Ovis2.5：原生分辨率视觉感知与深度推理的双重突破

S.H.I.T

新Claude Managed Agents

Tripo

即梦 CLI

同事.skill

ITELLOU

模型

网址

S.H.I.T

新Claude Managed Agents

Tripo

即梦 CLI

同事.skill

ITELLOU