模型 | 第60页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

原生分辨率图像生成新范式NiT：原生分辨率扩散Transformer，实现任意分辨率和宽高比图像生成

大语言模型（LLMs）凭借其在原生数据格式上训练的能力，能够高效处理可变长度文本。这种灵活的适应性启发我们思考一个关键问题：扩散模型能否也具备类似的灵活性，在任意分辨率和宽高比下直接学习生成图像？ ...

图像模型 # NiT # 原生分辨率生成

10个月前

04790

DCM：双专家一致性模型，实现高效高质量视频生成

扩散模型在图像和视频合成任务中展现出卓越性能，但其依赖多步迭代去噪的过程，导致计算成本高昂。为解决这一问题，一致性模型（Consistency Models）在加速扩散模型方面取得了重要进展。然而...

视频模型 # DCM # 一致性模型

10个月前

04420

OpenAudio S1：Fish Audio 推出媲美语音演员的尖端文本转语音模型

Fish Audio 重磅推出 OpenAudio S1 —— 一款在表现力、自然度和可控性方面达到新高度的文本转语音（TTS）模型。作为目前全球最先进的开源 TTS 模型之一，S1 在超过 200万...

语音模型 # Fish Audio # OpenAudio S1 # TTS模型

10个月前

05010

快手开源 KwaiCoder-AutoThink-preview：打造自动切换“思考模式”的大模型

快手 Kwaipilot 团队正式开源了其最新研究成果——KwaiCoder-AutoThink-preview 自动思考大模型。该模型针对当前深度思考类大模型中普遍存在的“过度思考”问题，提出了一种...

大语言模型 # KwaiCoder-AutoThink-preview # 快手

10个月前

03700

统一视觉理解与生成框架UniWorld：支持 20+语义图片编辑任务

北京大学深圳研究生院、鹏城实验室、兔展AI的研究人员推出统一视觉理解与生成框架UniWorld，它基于强大的视觉-语言模型和对比语义编码器，能够同时处理图像感知和图像操控任务。 GitHub：http...

图像模型 # UniWorld # 图像生成 # 图像编辑

10个月前

04730

PlayAI 推出基于扩散机制的新型音频编辑模型 PlayDiffusion：能够实现对已有语音片段的精准修改，无需重新生成整段语音

在语音合成领域，自回归变换器模型已被广泛应用于文本转语音（TTS）任务中，并取得了显著成果。然而，这些模型在处理一个关键问题时存在明显短板：如何在生成后的音频中进行局部修改（即“修补”），而不会破坏整...

语音模型 # PlayDiffusion # 音频编辑模型

10个月前

04800

SignGemma：谷歌推出全球最强手语翻译模型，为听障人群打开沟通新通道

谷歌近日宣布推出全新 AI 模型 SignGemma，作为 Gemma 家族的新成员，它专注于将手语（尤其是美式手语 ASL）翻译成英文文本或语音输出，是目前最强大的开源手语理解模型之一。 SignG...

多模态模型 # SignGemma # 手语翻译模型

10个月前

01680

像素空间推理视觉语言模型Pixel Reasoner：引入像素空间推理的概念，显著提升了视觉语言模型在视觉密集型任务中的表现

中国科学技术大学、香港科技大学和滑铁卢大学的研究人员推出基于 Qwen2 的开源视觉语言模型Pixel Reasoner，它通过引入像素空间推理（pixel-space reasoning）的概念，显...

多模态模型 # Pixel Reasoner # 视觉语言模型

10个月前

03330

谷歌发布医学多模态开源模型MedGemma：支持图像与文本理解，支持X光CT分析

谷歌近日推出了一款面向医疗领域的开源模型系列 —— MedGemma，该模型基于 Gemma 3 构建，在医学图像识别与文本理解方面表现出色，标志着医疗 AI 在开源方向上的重要进展。 MedGemm...

多模态模型 # MedGemma # 医学多模态开源模型 # 谷歌

10个月前

02070

字节跳动推出全新视频生成框架 ATI：用“画轨迹”控制视频运动，对象、视角、局部变形一应俱全！

字节跳动 AI 实验室发布了一项令人眼前一亮的视频生成技术 —— ATI（Any Trajectory Instruction），它让普通人也能通过“画轨迹”的方式，精准控制视频中物体的运动、镜头的移...

视频模型 # ATI # ATI-Wan2.1 14B # 字节跳动

11个月前

04050

蚂蚁集团开源全新统一多模态大模型 Ming-Lite-Omni：支持图像、文本、音频、视频

近日，蚂蚁集团旗下的百灵大模型（Ling）团队正式宣布开源其最新推出的统一多模态大模型 —— Ming-Lite-Omni。这是一款基于 Ling 系列轻量模型构建的 MoE 架构全模态 AI 模...

多模态模型 # Ming-Lite-Omni # 多模态大模型 # 蚂蚁集团

11个月前

03520

Snowflake 开源两款 AI 工具Arctic-Text2SQL-R1 和 Arctic Inference，专治企业最头疼的两个难题！

生成式 AI 发展到今天，很多问题已经解决，但仍有两大“顽疾”困扰着企业用户：文本转 SQL 的准确性问题：AI 写出来的 SQL 看起来像模像样，但在真实数据库上却执行失败； AI 推理的速度与成...

大语言模型 # Arctic Inference # Arctic-Text2SQL-R1 # Snowflake

11个月前

05400

加载更多

模型

原生分辨率图像生成新范式NiT：原生分辨率扩散Transformer，实现任意分辨率和宽高比图像生成

DCM：双专家一致性模型，实现高效高质量视频生成

OpenAudio S1：Fish Audio 推出媲美语音演员的尖端文本转语音模型

快手开源 KwaiCoder-AutoThink-preview：打造自动切换“思考模式”的大模型

统一视觉理解与生成框架UniWorld：支持 20+语义图片编辑任务

PlayAI 推出基于扩散机制的新型音频编辑模型 PlayDiffusion：能够实现对已有语音片段的精准修改，无需重新生成整段语音

SignGemma：谷歌推出全球最强手语翻译模型，为听障人群打开沟通新通道

像素空间推理视觉语言模型Pixel Reasoner：引入像素空间推理的概念，显著提升了视觉语言模型在视觉密集型任务中的表现

谷歌发布医学多模态开源模型MedGemma：支持图像与文本理解，支持X光CT分析

字节跳动推出全新视频生成框架 ATI：用“画轨迹”控制视频运动，对象、视角、局部变形一应俱全！

蚂蚁集团开源全新统一多模态大模型 Ming-Lite-Omni：支持图像、文本、音频、视频

Snowflake 开源两款 AI 工具Arctic-Text2SQL-R1 和 Arctic Inference，专治企业最头疼的两个难题！

S.H.I.T

ITELLOU

Tripo

同事.skill

waoo

MaxClaw

模型

网址

S.H.I.T

ITELLOU

Tripo

同事.skill

waoo

MaxClaw