模型 | 第44页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

阿里推出高效的长上下文压缩框架QwenLong-CPRS

在大语言模型（LLM）处理长文本时，两个核心问题始终存在：计算开销高和中间信息丢失严重。为了解决这些问题，阿里通义实验室 Qwen-Doc 团队推出了一个全新上下文压缩框架 —— QwenLong...

大语言模型 # QwenLong-CPRS # QwenLong-CPRS-7B

7个月前

04980

别让好模型消失，这个 WAN2.1 LoRA 合集值得收藏”

近日，CivitAI 在 Visa 和 Mastercard 的压力下进一步收紧内容政策，导致平台上大量模型被删除。这些模型中包含了许多创作者精心训练的作品，尤其是 NSFW类内容。地址：http...

视频模型 # WAN2.1 LoRA

7个月前

06520

Kyutai 推出全新语音系统Unmute，让任何大模型都能“说话”

Kyutai 近日发布了一款名为 Unmute 的全新语音 AI 系统。与以往语音模型不同，Unmute 并不试图替代现有的语言模型，而是作为一个高度模块化的“插件”，可以无缝接入任意文本大语言模型...

语音模型 # Kyutai # Unmute # 语音模型

7个月前

01420

视频生成模型的高效推理新方案Jenga：无需重新训练模型即可实现HunyuanVideo和Wan2.1显著提速

近年来，基于 DiT架构的视频生成模型在生成质量上取得了显著突破，但其高昂的计算成本却严重限制了实际部署与落地。为了解决这一瓶颈，来自香港中文大学、香港科技大学、快手科技和思谋科技的研究团队提出了 ...

视频模型 # HunyuanVideo # Jenga # Wan2.1

7个月前

03960

开源版GPT-4o！字节跳动开源新一代多模态模型 BAGEL：多模态理解、图像生成、图像编辑，还能“思考”

字节跳动发布了一款名为 BAGEL 的开源多模态基础模型，该模型拥有 70 亿活跃参数（总规模为 140 亿），在大规模交错多模态数据上进行训练。BAGEL 不仅在标准多模态理解排行榜中超越了当前主流...

图像模型 # BAGEL # GPT-4o # 多模态模型

7个月前

07340

MiniMax推出视觉三重统一强化学习（RL）系统 V-Triune ：使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务

MiniMax推出视觉三重统一强化学习（RL）系统 V-Triune ，使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务。该系统通过整合三个互补组件——样本级数据格式化（Sample-Le...

多模态模型 # MiniMax # V-Triune # 视觉语言模型

7个月前

04330

新型多模态音频生成框架AudioX：通过统一的模型架构实现从各种输入模态（如文本、视频、图像、音频等）生成高质量的音频和音乐

香港科技大学的研究人员推出新型多模态音频生成框架“AudioX”，通过统一的模型架构实现从各种输入模态（如文本、视频、图像、音频等）生成高质量的音频和音乐。该框架通过创新的多模态掩码训练策略，强制模型...

语音模型 # AudioX # 多模态音频生成

7个月前

01740

gen2seg：将生成模型（如Stable Diffusion和MAE）应用于实例分割任务

加州大学戴维斯分校的研究人员推出GEN2SEG，将生成模型（如Stable Diffusion和MAE）应用于实例分割任务，特别是对于那些在预训练和微调阶段未见过的物体类型和风格。通过微调这些生成模型...

图像模型 # gen2seg # 实例分割 # 生成模型

7个月前

03600

天工AI推出Matrix-Game：首个支持可控交互式游戏世界生成的170亿参数基础模型

昆仑万维旗下天工AI团队正式发布了其最新研究成果——Matrix-Game，这是一个面向游戏世界的可交互视频生成基础模型，专为 Minecraft 及类似开放世界设计，具备精确控制角色动作、视角变换和...

多模态模型 # Matrix-Game # 游戏世界生成

7个月前

02780

高效语音分离模型TIGER：解决低延迟语音处理系统中的高效率问题

清华大学的研究人员推出高效语音分离模型TIGER，解决低延迟语音处理系统中的高效率问题。语音分离是指从混合音频信号中准确分离出不同声音源的任务，类似于人类在嘈杂环境中专注于特定语音信号的“鸡尾酒会效应...

语音模型 # TIGeR # 语音分离模型

7个月前

02870

Stability AI 推出 Stable Video 4D 2.0：单视角视频生成高质量多视角 4D 资产

Stability AI 发布了 Stable Video 4D 2.0（SV4D 2.0），这是之前Stable Video 4D的重大升级。该模型能够在仅提供一个对象的单视角视频作为输入的情况下...

3D模型 # Stability AI # Stable Video 4D 2.0

7个月前

01380

DMind AI 推出专为 Web3 生态系统优化的领域专用大模型 DMind-1 和 DMind-1-mini

Web3 技术的迅猛发展，尤其是区块链、去中心化金融（DeFi）和智能合约的广泛应用，催生了对专门的大型语言模型（LLM）的迫切需求。这些领域需要精准的领域适配和高级推理能力，而通用 LLM 往往在特...

大语言模型 # DMind AI # DMind-1 # DMind-1-mini

7个月前

01260

加载更多

模型

阿里推出高效的长上下文压缩框架QwenLong-CPRS

别让好模型消失，这个 WAN2.1 LoRA 合集值得收藏”

Kyutai 推出全新语音系统Unmute，让任何大模型都能“说话”

视频生成模型的高效推理新方案Jenga：无需重新训练模型即可实现HunyuanVideo和Wan2.1显著提速

开源版GPT-4o！字节跳动开源新一代多模态模型 BAGEL：多模态理解、图像生成、图像编辑，还能“思考”

MiniMax推出视觉三重统一强化学习（RL）系统 V-Triune ：使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务

新型多模态音频生成框架AudioX：通过统一的模型架构实现从各种输入模态（如文本、视频、图像、音频等）生成高质量的音频和音乐

gen2seg：将生成模型（如Stable Diffusion和MAE）应用于实例分割任务

天工AI推出Matrix-Game：首个支持可控交互式游戏世界生成的170亿参数基础模型

高效语音分离模型TIGER：解决低延迟语音处理系统中的高效率问题

Stability AI 推出 Stable Video 4D 2.0：单视角视频生成高质量多视角 4D 资产

DMind AI 推出专为 Web3 生态系统优化的领域专用大模型 DMind-1 和 DMind-1-mini

人生 K 线

Fogsight (雾象)

Higgsfield AI

朱雀大模型检测

BabelDOC

秒哒

模型

网址

人生 K 线

Fogsight (雾象)

Higgsfield AI

朱雀大模型检测

BabelDOC

秒哒