模型 | 第55页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

DRA-Ctrl：利用视频生成模型实现可控图像生成的新范式

近年来，视频生成模型因其能够捕捉现实世界中的动态变化和复杂因果关系，被广泛视为一种“世界模拟器”。它们整合了视觉、时间、空间和语义等多个维度的信息，在建模长程依赖和多模态交互方面展现出强大潜力。那么...

10个月前

03800

Kyutai STT：低延迟、高吞吐的流式语音识别模型，专为实时交互优化

近日，Kyutai 实验室发布了一款全新的流式语音转文本（Speech-to-Text）模型——Kyutai STT，专为实时语音交互场景设计，在延迟与准确性之间实现了出色平衡，非常适合如语音助手、在...

语音模型 # Kyutai STT # 语音识别模型

10个月前

03810

国内首个专攻K-12数学教育的大模型开源！网易有道发布“子曰3数学模型”，可在单卡消费级显卡运行

网易有道宣布正式开源其“子曰3”系列大模型中的数学推理专用模型——Confucius3-Math（中文名：子曰3数学模型），这是国内首个专注于 K-12 数学教育、且可在单块消费级 GPU（如 RT...

大语言模型 # Confucius3-Math # 子曰3数学模型 # 网易有道

10个月前

03410

微软新推 Mu 模型：专为 Windows 设置代理而生的小而强语言模型

微软近日推出了一款全新的小型语言模型——Mu，它专为边缘设备和特定任务设计，在本地运行时展现出卓越性能。目前，Mu 已经在 Copilot+ PC 的 Windows Insider 开发频道中，用于...

大语言模型 # Mu 模型 # 微软

10个月前

02570

LongWriter-Zero：通过强化学习从零开始训练大语言模型，以实现超长文本生成

新加坡科技设计大学和清华大学的研究人员推出新型模型LongWriter-Zero，基于 Qwen 2.5-32B-Base 构建，通过强化学习（RL）从零开始训练大语言模型（LLMs），以实现超长文本...

大语言模型 # LongWriter-Zero # 大语言模型

10个月前

02700

多模态框架Tar：通过统一的离散语义表示将视觉理解和生成任务整合到一个共享空间中

香港中文大学和字节跳动的研究人员推出多模态框架Tar，通过统一的离散语义表示将视觉理解和生成任务整合到一个共享空间中。该框架的核心是 Text-Aligned Tokenizer (TA-Tok)，它...

图像模型 # Tar # 多模态框架

10个月前

04230

新型轨迹感知过程奖励模型（PRM） ReasonFlux-PRM：专门用于评估大型语言模型在长链推理中的轨迹-响应型推理痕迹

伊利诺伊大学厄巴纳-香槟分校、普林斯顿大学、康奈尔大学和字节跳动的研究人员推出新型轨迹感知过程奖励模型（PRM） ReasonFlux-PRM，专门用于评估大型语言模型（LLMs）在长链推理（Long...

大语言模型 # ReasonFlux-PRM # 轨迹感知过程奖励模型

10个月前

02500

昆仑万维开源代码模型 Skywork-SWE-32B：用消费级显卡部署 AI 工程师的新可能

今天，昆仑万维正式宣布开源其最新推出的代码智能体 Skywork-SWE-32B，该模型专为软件工程（SWE）任务设计，在 SWE-bench Verified 基准测试中达到 38.0% 的 pas...

大语言模型 # Skywork-SWE-32B # 代码模型 # 昆仑万维

10个月前

03650

北京人工智能研究院推出新一代统一多模态图像生成模型OmniGen2：视觉理解、文本到图像生成、指令驱动编辑和基于主体的上下文生成能力

在上一代模型 OmniGen 发布仅 7 个月后，北京人工智能研究院正式推出了其升级版——OmniGen2，一个集成了视觉理解、文本到图像生成、指令驱动编辑和基于主体的上下文生成能力的统一多模态模型...

图像模型 # OmniGen2 # 北京人工智能研究院 # 统一多模态图像生成

10个月前

04120

复旦联合团队发布首个统一多模态奖励模型UNIFIEDREWARD：图像视频都能评，还能优化视觉生成

近日，由复旦大学、上海创新创意设计研究院、上海人工智能实验室和上海人工智能科学院组成的研究团队，正式发布了全球首个支持图像与视频理解与生成任务评估的统一奖励模型 —— UNIFIEDREWARD。项...

多模态模型 # UNIFIEDREWARD # 统一多模态奖励模型

10个月前

04160

Kimi-VL-A3B-Thinking-2506 正式上线：更强推理、更高分辨率、支持视频理解

两个月前，月之暗面推出了首个开源多模态推理模型 Kimi-VL-A3B-Thinking，如今他们正式推出其升级版本 Kimi-VL-A3B-Thinking-2506。模型：https://hug...

多模态模型 # Kimi-VL-A3B-Thinking-2506 # 多模态推理模型 # 月之暗面

10个月前

03960

谷歌开源实时音乐生成模型 Magenta RealTime：8亿参数，支持文本/音频操控

今天，Google DeepMind 宣布开源一款名为 Magenta RealTime 的实时音乐生成模型。该模型基于 Apache 2.0 许可证发布，具备实时交互能力，能够根据文本提示或音频示例...

语音模型 # Magenta RealTime # 音乐生成模型

10个月前

03510

加载更多

模型

DRA-Ctrl：利用视频生成模型实现可控图像生成的新范式

Kyutai STT：低延迟、高吞吐的流式语音识别模型，专为实时交互优化

国内首个专攻K-12数学教育的大模型开源！网易有道发布“子曰3数学模型”，可在单卡消费级显卡运行

微软新推 Mu 模型：专为 Windows 设置代理而生的小而强语言模型

LongWriter-Zero：通过强化学习从零开始训练大语言模型，以实现超长文本生成

多模态框架Tar：通过统一的离散语义表示将视觉理解和生成任务整合到一个共享空间中

新型轨迹感知过程奖励模型（PRM） ReasonFlux-PRM：专门用于评估大型语言模型在长链推理中的轨迹-响应型推理痕迹

昆仑万维开源代码模型 Skywork-SWE-32B：用消费级显卡部署 AI 工程师的新可能

北京人工智能研究院推出新一代统一多模态图像生成模型OmniGen2：视觉理解、文本到图像生成、指令驱动编辑和基于主体的上下文生成能力

复旦联合团队发布首个统一多模态奖励模型UNIFIEDREWARD：图像视频都能评，还能优化视觉生成

Kimi-VL-A3B-Thinking-2506 正式上线：更强推理、更高分辨率、支持视频理解

谷歌开源实时音乐生成模型 Magenta RealTime：8亿参数，支持文本/音频操控

S.H.I.T

ITELLOU

Tripo

同事.skill

BuildCores

waoo

模型

网址

S.H.I.T

ITELLOU

Tripo

同事.skill

BuildCores

waoo