Kyutai 推出全新语音系统Unmute,让任何大模型都能“说话”Kyutai 近日发布了一款名为 Unmute 的全新语音 AI 系统。与以往语音模型不同,Unmute 并不试图替代现有的语言模型,而是作为一个高度模块化的“插件”,可以无缝接入任意文本大语言模型...语音模型# Kyutai# Unmute# 语音模型8个月前01460
视频生成模型的高效推理新方案Jenga:无需重新训练模型即可实现HunyuanVideo和Wan2.1显著提速近年来,基于 DiT架构的视频生成模型在生成质量上取得了显著突破,但其高昂的计算成本却严重限制了实际部署与落地。 为了解决这一瓶颈,来自香港中文大学、香港科技大学、快手科技和思谋科技的研究团队提出了 ...视频模型# HunyuanVideo# Jenga# Wan2.18个月前04060
MiniMax推出视觉三重统一强化学习(RL)系统 V-Triune :使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务MiniMax推出视觉三重统一强化学习(RL)系统 V-Triune ,使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务。该系统通过整合三个互补组件——样本级数据格式化(Sample-Le...多模态模型# MiniMax# V-Triune# 视觉语言模型8个月前04670
新型多模态音频生成框架AudioX:通过统一的模型架构实现从各种输入模态(如文本、视频、图像、音频等)生成高质量的音频和音乐香港科技大学的研究人员推出新型多模态音频生成框架“AudioX”,通过统一的模型架构实现从各种输入模态(如文本、视频、图像、音频等)生成高质量的音频和音乐。该框架通过创新的多模态掩码训练策略,强制模型...语音模型# AudioX# 多模态音频生成8个月前01750
gen2seg:将生成模型(如Stable Diffusion和MAE)应用于实例分割任务加州大学戴维斯分校的研究人员推出GEN2SEG,将生成模型(如Stable Diffusion和MAE)应用于实例分割任务,特别是对于那些在预训练和微调阶段未见过的物体类型和风格。通过微调这些生成模型...图像模型# gen2seg# 实例分割# 生成模型8个月前03950
天工AI推出Matrix-Game:首个支持可控交互式游戏世界生成的170亿参数基础模型昆仑万维旗下天工AI团队正式发布了其最新研究成果——Matrix-Game,这是一个面向游戏世界的可交互视频生成基础模型,专为 Minecraft 及类似开放世界设计,具备精确控制角色动作、视角变换和...多模态模型# Matrix-Game# 游戏世界生成8个月前02930
高效语音分离模型TIGER:解决低延迟语音处理系统中的高效率问题清华大学的研究人员推出高效语音分离模型TIGER,解决低延迟语音处理系统中的高效率问题。语音分离是指从混合音频信号中准确分离出不同声音源的任务,类似于人类在嘈杂环境中专注于特定语音信号的“鸡尾酒会效应...语音模型# TIGeR# 语音分离模型8个月前03070
Stability AI 推出 Stable Video 4D 2.0:单视角视频生成高质量多视角 4D 资产Stability AI 发布了 Stable Video 4D 2.0(SV4D 2.0),这是之前Stable Video 4D的重大升级。该模型能够在仅提供一个对象的单视角视频作为输入的情况下...3D模型# Stability AI# Stable Video 4D 2.08个月前01400
DMind AI 推出专为 Web3 生态系统优化的领域专用大模型 DMind-1 和 DMind-1-miniWeb3 技术的迅猛发展,尤其是区块链、去中心化金融(DeFi)和智能合约的广泛应用,催生了对专门的大型语言模型(LLM)的迫切需求。这些领域需要精准的领域适配和高级推理能力,而通用 LLM 往往在特...大语言模型# DMind AI# DMind-1# DMind-1-mini8个月前01270
新型多模态扩散基础模型MMaDA:通过统一的扩散架构和训练策略,在多种领域(如文本推理、多模态理解和文本到图像生成)中实现卓越性能普林斯顿大学、北京大学、清华大学和字节跳动的研究人员推出新型多模态扩散基础模型MMaDA系列,该模型通过统一的扩散架构和训练策略,在多种领域(如文本推理、多模态理解和文本到图像生成)中实现卓越性能。 ...多模态模型# MMaDA# 多模态扩散基础模型8个月前04230
过程奖励模型WEB-SHEPHERD :专门用于评估网络导航任务中的智能代理行为延世大学和卡内基梅隆大学的研究人员推出一个名为 WEB-SHEPHERD 的过程奖励模型(PRM),专门用于评估网络导航任务中的智能代理行为。网络导航是一个复杂的领域,需要智能代理能够进行长期的序列决...多模态模型# WEB-SHEPHERD# 过程奖励模型8个月前02130
腾讯推出大型混合 Transformer-Mamba 专家混合(MoE)模型Hunyuan-TurboS腾讯推出了Hunyuan-TurboS,这是一个新型的大型混合 Transformer-Mamba 专家混合(MoE)模型。它结合了 Mamba 架构在长序列处理上的高效性与 Transformer ...大语言模型# Hunyuan-TurboS# 腾讯8个月前02700