模型 | 第13页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

面壁智能发布MiniCPM-o 4.5：9B参数端侧全双工多模态大模型，对标Gemini 2.5 Flash

面壁智能正式推出MiniCPM-o系列最新旗舰模型——MiniCPM-o 4.5。这款总参数量仅9B的端侧多模态大模型（MLLM），基于SigLip2、Whisper-medium、CosyVoice...

2个月前

0740

电信AI研究院提出TeleStyle：DiT架构下实现图像/视频内容保持式风格迁移SOTA

中国电信人工智能研究院（TeleAI）提出TeleStyle——一款轻量级且高效的图像与视频内容保持式风格迁移模型，核心基于Qwen-Image-Edit构建，针对性解决了扩散变换器（DiT）架构中内...

图像模型 # TeleStyle # 风格迁移

2个月前

0600

ACE Studio×阶跃星辰推出ACE-Step v1.5：混合架构开源音乐模型，商用就绪且50+语言适配

ACE Studio联合阶跃星辰（StepFun）重磅发布ACE-Step v1.5，这是一款专为消费级硬件打造的高效开源音乐基础模型，首次将商业级音乐生成能力下沉到普通硬件环境。该模型不仅在核心评估...

语音模型 # ACE Studio # ACE-Step v1.5 # 阶跃星辰

2个月前

01010

InteractAvatar：文本驱动的可控说话化身框架，实现高保真场景化人-物交互

清华大学联合腾讯混元项目组研发的InteractAvatar，是一款创新的双流DiT（扩散变换器）框架，首次让说话虚拟化身突破简单手势局限，实现基于静态场景的文本驱动可控人-物交互。该模型能从参考图像...

视频模型 # InteractAvatar # 数字人

2个月前

0590

阿里Qwen3-Coder重磅发布：480B MoE模型拿下开源Agent编程SOTA，媲美Claude Sonnet4

阿里Qwen项目组正式推出Qwen3-Coder系列代码模型，这是其迄今代理能力最强的代码模型版本，其中旗舰款Qwen3-Coder-480B-A35B-Instruct更是拉满配置——总参数量480...

大语言模型 # Claude Sonnet4 # Qwen3-Coder # 阿里

2个月前

04200

两个月再升级！HCompany推出2350亿参数Holo2-235B-A22B，刷新UI定位模型基准

距离首款Holo2模型发布仅两个月，HCompany便推出迄今最大规模的UI定位模型Holo2-235B-A22B Preview，一举在ScreenSpot-Pro基准测试中创下78.5%的新纪录...

多模态模型 # HCompany # Holo2 # Holo2-235B-A22B

2个月前

0420

智谱AI开源GLM-OCR：0.9B参数拿下榜单第一，支持vLLM部署，一行命令就能用

智谱AI又放出一款实用开源模型——GLM-OCR，这是一款专为复杂文档理解打造的多模态OCR模型，不仅在权威基准测试中拿下综合第一，还做到了轻量高效、易部署，关键是完全开源，个人和企业都能免费使用。 ...

多模态模型 # GLM-OCR # 智谱AI

2个月前

02780

Apache 2.0 许可！Photoroom 推出轻量级 13 亿参数开源文生图模型 PRX

Photoroom 团队正式发布了其首个开源文生图模型 PRX (Photoroom Experimental)。这是一个拥有 13 亿参数、完全从头开始训练的扩散变换器模型，并以宽松的 Apach...

图像模型 # Photoroom # PRX

2个月前

0380

阶跃星辰推出Step 3.5 Flash：196B MoE 开源旗舰，推理与智能体性能对标闭源顶级模型

Step 3.5 Flash 是阶跃星辰推出的开源旗舰语言推理模型，定位为当前最强大的开源基座之一，专为极致效率、深度推理、智能体（Agent）执行而生。 GitHub：https://github...

大语言模型 # Step 3.5 Flash # 阶跃星辰

2个月前

0700

优必选开源具身智能大模型Thinker：小参数、高性能，专为工业人形机器人打造

过去一年，人形机器人在实验室环境中的“场景理解”与“任务规划”能力突飞猛进。然而，一旦进入真实的工业产线，它们便常常陷入“想得到但抓不准、算得出但跟不上”的困境。这背后，是长期存在的鸿沟：空间层面的度...

多模态模型 # Thinker # 优必选 # 具身智能大模型

2个月前

0560

商汤开源 SenseNova-MARS：多模态自主推理模型登顶 MMSearch 榜单

商汤科技正式开源 SenseNova-MARS —— 一款支持动态视觉推理与图文搜索深度融合的多模态大模型（VLM）。该模型提供 8B 与 32B 双版本，在多模态搜索与推理核心基准 MMSearch...

多模态模型 # SenseNova-MARS # 商汤

2个月前

0810

模思智能推出 MOVA：开源同步音视频生成基座模型，打破“无声视频”困局

模思智能正式开源 MOVA（MOSS Video and Audio）——一款专注于原生同步生成视频与音频的基座模型。针对当前主流系统（如 Sora 2、Veo 3）普遍采用的“先画后音”级联流程，M...

视频模型 # MOVA # 模思智能

2个月前

0200

加载更多

模型

面壁智能发布MiniCPM-o 4.5：9B参数端侧全双工多模态大模型，对标Gemini 2.5 Flash

电信AI研究院提出TeleStyle：DiT架构下实现图像/视频内容保持式风格迁移SOTA

ACE Studio×阶跃星辰推出ACE-Step v1.5：混合架构开源音乐模型，商用就绪且50+语言适配

InteractAvatar：文本驱动的可控说话化身框架，实现高保真场景化人-物交互

阿里Qwen3-Coder重磅发布：480B MoE模型拿下开源Agent编程SOTA，媲美Claude Sonnet4

两个月再升级！HCompany推出2350亿参数Holo2-235B-A22B，刷新UI定位模型基准

智谱AI开源GLM-OCR：0.9B参数拿下榜单第一，支持vLLM部署，一行命令就能用

Apache 2.0 许可！Photoroom 推出轻量级 13 亿参数开源文生图模型 PRX

阶跃星辰推出Step 3.5 Flash：196B MoE 开源旗舰，推理与智能体性能对标闭源顶级模型

优必选开源具身智能大模型Thinker：小参数、高性能，专为工业人形机器人打造

商汤开源 SenseNova-MARS：多模态自主推理模型登顶 MMSearch 榜单

模思智能推出 MOVA：开源同步音视频生成基座模型，打破“无声视频”困局

S.H.I.T

新Flova

Tripo

ITELLOU

即梦 CLI

Meshy

模型

网址

S.H.I.T

新Flova

Tripo

ITELLOU

即梦 CLI

Meshy