模型 | 第52页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

新型3D部件非模态分割模型HoloPart：将3D形状分解为完整的、语义上有意义的部件

香港大学和VAST的研究人员推出新型3D部件非模态分割模型HoloPart 。该模型旨在将3D形状分解为完整的、语义上有意义的部件，即使这些部件被部分或完全遮挡。这一任务被称为 3D部件非模态分割，是...

3D模型 # 3D部件非模态分割模型 # HoloPart

8个月前

04050

Nari Labs开源TTS模型Dia-1.6B：生成自然对话与非语言表达，支持声音克隆

Nari Labs在今天开源了一个拥有16亿参数的文本转语音模型Dia-1.6B。这个模型的最大亮点在于它能够生成高度逼真的对话，并且加入了自然人声元素，比如笑声、咳嗽、清喉咙等，让语音合成更加生动自...

语音模型 # Dia-1.6B # Nari Labs # TTS模型

8个月前

02,1980

Sand AI推出新型视频生成模型MAGI-1：通过自回归预测视频块序列来生成视频

MAGI-1是由Sand AI研究团队开发的一种新型视频生成模型。该模型通过自回归预测视频块序列来生成视频，每个视频块由固定长度的连续帧组成。MAGI-1的核心目标是实现高保真、实时、因果一致的视频生...

视频模型 # MAGI-1 # Sand AI # 自回归

8个月前

06740

昆仑万维推出SkyReels-V2：首个基于扩散强制框架的无限长度电影生成模型

近年来，视频生成领域取得了显著进展，主要得益于扩散模型和自回归框架的推动。然而，这一领域仍面临诸多关键挑战，例如提示一致性、视觉质量、动态效果和视频时长之间的权衡。为了追求更高的视觉质量，许多模型不得...

视频模型 # SkyReels-V2 # 昆仑万维 # 视频生成模型

8个月前

03330

FLUX.1-dev-ControlNet-Union-Pro-2.0 FP8 量化版本：降低对于显存的需求

近期Shakker Labs发布了FLUX.1-dev-ControlNet-Union-Pro-2.0，但原版模型对于显存要求过高，于是就有开发者推出了FP8 量化版本。这不是一个经过微调的模型，而...

图像模型 # FLUX.1-dev-ControlNet-Union-Pro-2.0 # FP8 量化版本 # Shakker Labs

8个月前

05960

字节跳动推出多模态大语言模型ChatTS：专门用于时间序列分析

清华大学和字节跳动的研究人员推出多模态大语言模型ChatTS ，专门用于时间序列分析。它通过自然语言命令帮助用户快速理解时间序列数据，执行日常任务，并处理复杂的推理问题。ChatTS 的核心优势在于其...

多模态模型 # ChatTS # 多模态大语言模型 # 字节跳动

8个月前

02540

MAI-DS-R1：微软团队基于DeepSeek-R1 推理模型进行后训练的版本

MAI-DS-R1 是一个由微软 AI 团队对 DeepSeek-R1 推理模型进行后训练的版本，提升其对受限话题的响应能力并改善其风险状况，同时保持推理能力和竞争力。简单来说就是把欧美的偏见加进去...

大语言模型 # DeepSeek-R1 # MAI-DS-R1 # 微软

8个月前

02940

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

字节跳动与清华大学的研究人员推出新型自动化 GUI（图形用户界面）交互模型 UI-TARS，它是一种原生的 GUI 代理模型，能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠...

多模态模型 # UI-TARS # 字节跳动

8个月前

03360

基于Flux模型的创新角色生成框架InstantCharacter：单张图像生成高质量角色图像

腾讯混元团队与InstantX团队近日联合推出了一种全新的角色定制方法——InstantCharacter。这一方法无需调优，仅通过单张图像即可实现高保真、文本可控且角色一致的图像生成，支持多种下游任...

图像模型 # FLUX模型 # InstantCharacter # InstantX

8个月前

05120

谷歌发布量化感知训练（QAT）优化版 Gemma 3 模型Gemma 3 QAT

谷歌昨日（4月18日）通过官方博文发布了量化感知训练（QAT）优化版的Gemma 3模型。这一版本在保持高质量输出的同时，显著降低了对硬件内存的需求，为本地部署和普通硬件用户带来了福音。 MLX 版本...

大语言模型 # Gemma 3 # Gemma 3 QAT # 谷歌

8个月前

02070

基于蒸馏的多功能图像生成模型DMM：通过蒸馏模型合并技术实现多功能图像生成

在文本到图像（Text-to-Image, T2I）生成领域，开发者通常会基于强大的基础模型（如Stable Diffusion 1.5）进行微调，以适应特定风格或场景的需求。例如，某些模型专注于生成...

图像模型 # DMM # 图像生成模型 # 蒸馏模型

8个月前

02400

微软发布20亿参数1-bit模型BitNet b1.58，性能超越主流LLM且更适合边缘设备

本周，微软发布了全新的大语言模型家族——BitNet b1.58 LLM。这一系列模型采用了创新的1-bit架构，参数规模达到20亿（2B4T），是迄今为止最大的开源1-bit模型。研究团队表示，这种...

大语言模型 # BitNet b1.58 # 微软

8个月前

04310

加载更多

模型

新型3D部件非模态分割模型HoloPart：将3D形状分解为完整的、语义上有意义的部件

Nari Labs开源TTS模型Dia-1.6B：生成自然对话与非语言表达，支持声音克隆

Sand AI推出新型视频生成模型MAGI-1：通过自回归预测视频块序列来生成视频

昆仑万维推出SkyReels-V2：首个基于扩散强制框架的无限长度电影生成模型

FLUX.1-dev-ControlNet-Union-Pro-2.0 FP8 量化版本：降低对于显存的需求

字节跳动推出多模态大语言模型ChatTS：专门用于时间序列分析

MAI-DS-R1：微软团队基于DeepSeek-R1 推理模型进行后训练的版本

新型自动化 GUI交互模型 UI-TARS：能够通过感知屏幕截图作为输入，并执行类似人类操作的交互任务（如键盘输入和鼠标操作）

基于Flux模型的创新角色生成框架InstantCharacter：单张图像生成高质量角色图像

谷歌发布量化感知训练（QAT）优化版 Gemma 3 模型Gemma 3 QAT

基于蒸馏的多功能图像生成模型DMM：通过蒸馏模型合并技术实现多功能图像生成

微软发布20亿参数1-bit模型BitNet b1.58，性能超越主流LLM且更适合边缘设备

人生 K 线

Fogsight (雾象)

朱雀大模型检测

Tripo

秒哒

ITELLOU

模型

网址

人生 K 线

Fogsight (雾象)

朱雀大模型检测

Tripo

秒哒

ITELLOU