模型 | 第58页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

字节跳动发布Seaweed APT2：专为实时交互式场景设计的流式视频生成模型

字节跳动研究团队推出了Seaweed APT2，一款专为实时交互式场景设计的流式视频生成模型。该模型能够在单块H100 GPU上实现每秒24帧、分辨率高达736x416（等效640x480）的不间断视...

10个月前

02720

Meta推出基于视频训练的“世界模型”V-JEPA 2：AI“世界模型”迈出理解物理世界的重要一步

Meta 发布了其最新 AI 研究成果 —— V-JEPA 2，一个基于视频训练的“世界模型”，旨在帮助 AI 更好地理解现实世界的物理规律，并用于机器人控制、任务规划等复杂场景。项目主页：http...

多模态模型 # Meta # V-JEPA 2 # 世界模型

10个月前

02200

字节跳动推出视频生成模型 Seedance 1.0，视频生成迈入“电影级”体验

字节跳动正式发布了其最新的视频生成模型 Seedance 1.0。该模型已集成在字节旗下 AI 创作平台“即梦”中，并以“视频生成3.0 Pro”版本面向用户开放（需会员权限使用）。目前，每生成一个5...

视频模型 # Seedance 1.0 # 字节跳动 # 视频生成模型

10个月前

03200

Krea AI 正式发布首款图像模型 Krea 1：专治“AI味”画面！

今天，AI 创意工具平台 Krea AI 宣布推出其首款自研图像生成模型 —— Krea 1。这款模型专注于解决一个长期困扰创作者的问题： “AI 生成的画面，总感觉像 AI。” 而现在，Krea 1...

图像模型 # Krea 1 # Krea AI # 图像模型

10个月前

03950

北大 × 字节 × CMU 联合推出 PartCrafter：首个支持多部件联合生成的 3D 网格生成模型

来自北京大学、字节跳动和卡内基梅隆大学（CMU）的研究团队联合发布了一项突破性的研究成果——PartCrafter，这是目前首款能够从单张 RGB 图像中联合生成多个语义明确、几何独立的 3D 网格部...

3D模型 # 3D 网格生成模型 # PartCrafter

10个月前

01230

用于音频驱动的多人对话视频生成的新框架 MultiTalk：根据多路音频输入和提示生成包含互动的视频，同时确保唇部动作与音频同步

中山大学深圳校区、美团和香港科技大学的研究人员推出用于音频驱动的多人对话视频生成的新框架 MultiTalk，该框架能够根据多路音频输入和提示生成包含互动的视频，同时确保唇部动作与音频同步。项目主页...

视频模型 # MultiTalk # 多人对话视频生成

10个月前

01970

新型训练范式Self Forcing：用于自回归视频扩散模型，解决模型在训练和推理时的分布不一致问题

Adobe研究和德克萨斯大学奥斯汀分校的研究人员推出新型训练范式Self Forcing ，用于自回归视频扩散模型，旨在解决模型在训练和推理时的分布不一致问题（即暴露偏差问题），从而提高视频生成的...

视频模型 # Self Forcing # 训练范式

10个月前

05240

Mistral发布首款推理模型Magistral，挑战Gemini 2.5 Pro与Claude Opus

法国AI实验室 Mistral AI 正式发布了其首个推理模型家族——Magistral，标志着这家以开源著称的AI公司正式进军高阶推理领域。该系列包括两个版本： Magistral Small（2...

大语言模型 # Magistral # Mistral AI # 推理模型

10个月前

01520

音频描述数据集FusionAudio-1.2M：通过多模态上下文融合来生成细粒度的音频描述

香港中文大学（深圳）和华南理工大学的研究人员推出推出一个名为FusionAudio-1.2M的音频描述数据集，通过多模态上下文融合来生成细粒度的音频描述。该数据集通过模拟人类听觉感知的方式，整合了多种...

语音模型 # FusionAudio-1.2M

10个月前

02030

华科大联合金山办公推出文档解析新模型MonkeyOCR

近日，华中科技大学与金山办公联合研究团队发布了一款全新的文档解析模型 —— MonkeyOCR。该模型通过引入“结构-识别-关系”（Structure-Recognition-Relation, SR...

多模态模型 # MonkeyOCR # 文档解析

10个月前

02480

英伟达推出一款专为复杂推理任务设计的开源模型 — Nemotron-Research-Reasoning-Qwen-1.5B

英伟达近日发布了一款专为复杂推理任务设计的开源模型 —— Nemotron-Research-Reasoning-Qwen-1.5B，该模型参数量为 1.5B，在数学、编程、科学问题和逻辑谜题等任务上...

大语言模型 # Nemotron-Research-Reasoning-Qwen-1.5B # 英伟达

10个月前

01350

昆仑万维推出 SkyReels-Audio：多模态驱动、无限长度的高质量会说话肖像视频生成框架

昆仑万维旗下 SkyReels 团队发布了全新音视频生成模型——SkyReals-Audio，一个用于合成高保真、时间一致的“会说话”肖像视频的统一框架。项目主页：https://skyworka...

语音模型 # SkyReels-Audio # 昆仑万维

10个月前

03010

加载更多

模型

字节跳动发布Seaweed APT2：专为实时交互式场景设计的流式视频生成模型

Meta推出基于视频训练的“世界模型”V-JEPA 2：AI“世界模型”迈出理解物理世界的重要一步

字节跳动推出视频生成模型 Seedance 1.0，视频生成迈入“电影级”体验

Krea AI 正式发布首款图像模型 Krea 1：专治“AI味”画面！

北大 × 字节 × CMU 联合推出 PartCrafter：首个支持多部件联合生成的 3D 网格生成模型

用于音频驱动的多人对话视频生成的新框架 MultiTalk：根据多路音频输入和提示生成包含互动的视频，同时确保唇部动作与音频同步

新型训练范式Self Forcing：用于自回归视频扩散模型，解决模型在训练和推理时的分布不一致问题

Mistral发布首款推理模型Magistral，挑战Gemini 2.5 Pro与Claude Opus

音频描述数据集FusionAudio-1.2M：通过多模态上下文融合来生成细粒度的音频描述

华科大联合金山办公推出文档解析新模型MonkeyOCR

英伟达推出一款专为复杂推理任务设计的开源模型 — Nemotron-Research-Reasoning-Qwen-1.5B

昆仑万维推出 SkyReels-Audio：多模态驱动、无限长度的高质量会说话肖像视频生成框架

S.H.I.T

ITELLOU

Tripo

同事.skill

BuildCores

waoo

模型

网址

S.H.I.T

ITELLOU

Tripo

同事.skill

BuildCores

waoo