模型 | 第30页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

谷歌发布 Gemini 2.5 Flash-Lite 稳定版：更快、更轻、更具成本效益

谷歌宣布，Gemini 2.5 Flash-Lite 正式进入稳定版本并全面开放使用。作为 Gemini 2.5 模型系列中速度最快、成本最低的成员，该模型旨在为大规模生产场景提供高性价比的智能推理能...

5个月前

01040

阿里Qwen团队推出新一代代码大模型 Qwen3-Coder

阿里通义Qwen团队发布全新代码大模型系列 Qwen3-Coder，这是目前 Qwen 系列中最具代理（Agent）能力的代码模型。此次发布的最大版本为 Qwen3-Coder-480B-A35B-I...

大语言模型 # Qwen Code CLI # Qwen3-Coder # 代码大模型

5个月前

01990

南洋理工大学 S-Lab 提出新型对象移除框架ObjectClear ，精准消除物体及其阴影、反射

在图像编辑任务中，移除一个物体看似简单，实则极具挑战。不仅要将目标对象从画面中“擦除”，还需同步清除其带来的视觉副产物——如阴影、倒影、高光、遮挡痕迹等。若处理不当，即便主体消失，残留的影子或反光仍...

图像模型 # ObjectClear # 南洋理工大学 # 对象移除

5个月前

03070

快手 Kwaipilot 团队开源 40B 大模型 KAT-V1-40B ：用 AutoThink 实现智能“何时思考”

在当前大模型普遍追求“深度推理”的趋势下，一个更现实的问题逐渐浮现：是否每个问题都需要长篇思维链？过度使用思维链（Chain-of-Thought, CoT）不仅增加计算开销、拖慢响应速度，还可能导...

大语言模型 # KAT-V1-40B # 快手

5个月前

01290

SongBloom：一种实现结构连贯与高保真度的全曲生成新框架

在自动音乐生成领域，生成一首具备完整结构、风格统一、人声与伴奏和谐融合的全长歌曲，依然是极具挑战性的任务。现有方法——无论是基于语言模型的自回归生成，还是基于扩散模型的音频合成——往往面临两难困境...

语音模型 # SongBloom # 音乐生成

5个月前

0910

字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

字节跳动Seed团队近日推出一款面向复杂操作任务的大规模机器人模型——Seed GR-3（Generalist Robot Model-3）。该模型具备良好的泛化能力，支持长序列任务执行与多模态指令理...

多模态模型 # Seed GR-3 # 字节跳动

5个月前

01580

DMOSpeech 2：用强化学习优化语音合成的时长预测

在零样本文本到语音（TTS）领域，基于扩散模型的系统近年来取得了显著进展。然而，大多数方法仍难以实现对整个生成流程的端到端感知质量优化——尤其是时长预测这一关键组件，长期依赖自监督训练，未能与语音生成...

语音模型 # DMOSpeech 2 # TTS 框架

5个月前

02800

告别旧版，迎接进化！阿里Qwen团队发布Qwen3-235B-A22B-Instruct-2507

在与社区深入交流并综合反馈后，阿里Qwen团队做出一项重要决策：停止使用混合“思维模式”（Thinking Mode）的训练方式，转而采用 Instruct 与 Thinking 模型分离训练的新策...

大语言模型 # Qwen3-235B-A22B-Instruct-2507

5个月前

05940

基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG：能够生成从简单图标到复杂动漫角色的高质量 SVG 图形

复旦大学和阶跃星辰的研究人员推出基于视觉语言模型（VLMs）的端到端多模态 SVG 生成框架OmniSVG，能够生成从简单图标到复杂动漫角色的高质量 SVG 图形，支持文本到 SVG、图像到 SVG ...

图像模型 # OmniSVG # SVG # 视觉语言模型

5个月前

02500

CoPart：基于“部分”的3D生成框架，让AI更精细地理解3D对象

在3D内容生成领域，早期的研究主要依赖于2D渲染图像的多视角驱动方法。然而，随着技术的发展，3D原生扩散模型逐渐展现出更强的生成能力，尤其是在几何建模和纹理细节方面，因为它直接利用了真实3D数据所包含...

3D模型 # 3D生成 # CoPart

5个月前

02430

英伟达发布OpenReasoning-Nemotron：多规模推理模型，覆盖数学、科学与编程

英伟达近日发布了 OpenReasoning-Nemotron 模型家族，这是一组专为数学、科学和编程推理任务优化的大语言模型。模型：https://huggingface.co/collectio...

大语言模型 # OpenReasoning-Nemotron # 英伟达

5个月前

02690

新型扩散模型 Diffuman4D ：从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频

浙江大学和蚂蚁研究的研究人员推出新型扩散模型 Diffuman4D ，从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频。该模型通过引入滑动迭代去噪过程和基于人体骨骼的姿态条件机制，显著提升了生...

视频模型 # Diffuman4D # 人体自由视角视频

5个月前

02340

加载更多

模型

谷歌发布 Gemini 2.5 Flash-Lite 稳定版：更快、更轻、更具成本效益

阿里Qwen团队推出新一代代码大模型 Qwen3-Coder

南洋理工大学 S-Lab 提出新型对象移除框架ObjectClear ，精准消除物体及其阴影、反射

快手 Kwaipilot 团队开源 40B 大模型 KAT-V1-40B ：用 AutoThink 实现智能“何时思考”

SongBloom：一种实现结构连贯与高保真度的全曲生成新框架

字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3

DMOSpeech 2：用强化学习优化语音合成的时长预测

告别旧版，迎接进化！阿里Qwen团队发布Qwen3-235B-A22B-Instruct-2507

基于视觉语言模型的端到端多模态 SVG 生成框架OmniSVG：能够生成从简单图标到复杂动漫角色的高质量 SVG 图形

CoPart：基于“部分”的3D生成框架，让AI更精细地理解3D对象

英伟达发布OpenReasoning-Nemotron：多规模推理模型，覆盖数学、科学与编程

新型扩散模型 Diffuman4D ：从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频

Fogsight (雾象)

朱雀大模型检测

ITELLOU

Google AI Studio

Higgsfield AI

Tripo

模型

网址

Fogsight (雾象)

朱雀大模型检测

ITELLOU

Google AI Studio

Higgsfield AI

Tripo