Apriel-1.5-15B-Thinker:用中期训练提升多模态推理效率在大模型竞赛普遍追求参数规模和算力投入的背景下,一个名为 Apriel-1.5-15B-Thinker 的新开源模型带来了不同的思路:它不依赖强化学习或偏好优化,也不从零训练,而是通过精心设计的中期训...大语言模型# Apriel-1.5-15B-Thinker5个月前01350
小红书开源 FireRedChat:一个完整、可控的全双工语音交互系统在智能助手和客户服务场景中,用户希望与AI的对话像人与人交流一样自然——可以随时插话、打断、继续,而系统能即时响应。要实现这种体验,需要真正的全双工语音交互能力。 然而,现有方案存在明显短板: 端到端...语音模型# FireRedChat# 小红书5个月前03500
IBM 发布 Granite 4.0:基于 Mamba-2/Transformer 混合架构的新一代高效开源大模型IBM 正式推出其最新开源语言模型系列 Granite 4.0,标志着企业在追求高性能与低推理成本之间的平衡上迈出关键一步。 这一代模型不再依赖传统的纯 Transformer 架构,而是采用创新的 ...大语言模型# Granite 4.0# IBM5个月前0670
NeuTTS Air:可在本地运行的高效语音合成模型长期以来,高质量的文本转语音(TTS)能力主要依赖云端 API——虽然效果好,但存在延迟高、隐私风险、网络依赖等问题。 现在,一种新的选择正在出现:在本地设备上实现自然听感的语音合成。 NeuTTS ...语音模型# NeuTTS Air# 语音合成模型5个月前05300
KaniTTS 发布:一种高效且富有表现力的文本到语音模型NineNineSix 团队近日推出 KaniTTS ——一个专为低延迟、高保真语音合成设计的开源文本到语音(TTS)系统。 GitHub:https://github.com/nineninesix...语音模型# KaniTTS5个月前01800
Liquid AI 发布 LFM2-Audio:一个轻量级、端到端的音频-文本基础模型Liquid AI 正式推出 LFM2-Audio-1.5B ——一款专为实时交互设计的端到端多模态基础模型,支持音频与文本的任意输入输出组合。 GitHub:https://github.com/L...语音模型# LFM2-Audio# Liquid AI5个月前01600
Hume AI 发布 Octave 2:更智能、多语言、低延迟的语音合成系统Hume AI 正式推出 Octave 2 ——其下一代文本到语音(TTS)模型的重大升级版本。作为“语音语言模型”(Speech Language Model, SLM)架构的延续,Octave 2...语音模型# EVI 4 mini# Hume AI# Octave 25个月前01010
新加坡国立大学等提出 SparseD:让扩散语言模型在长上下文场景高效运行的稀疏注意力新方案扩散语言模型(Diffusion Language Models, DLMs)因其支持并行生成文本的能力,被视为自回归模型(AR)之外的一条重要技术路径。然而,其高昂的推理延迟严重制约了实际应用,尤其...大语言模型# SparseD# 稀疏注意力# 长上下文场景5个月前02140
SLA:清华与伯克利联合提出可训练稀疏线性注意力,加速DiT视频生成在高分辨率、长时序视频生成任务中,扩散变换器(Diffusion Transformer, DiT)已成为主流架构。然而,其核心组件——自注意力机制——面临着一个根本性瓶颈:计算复杂度随序列长度呈平方...视频模型# SLA# 可训练混合注意力机制5个月前01260
线性注意力 + 恒定内存 KV 缓存!SANA-Video:高效生成分钟级高清视频的新一代文生视频模型在文本到视频(T2V)生成领域,高分辨率、长时长与低延迟三者往往难以兼得。现有大模型虽能生成高质量视频,但动辄数千秒的推理时间与高昂的训练成本严重限制了其落地应用。 为此,由英伟达、香港大学、麻省理工...视频模型# SANA-Video# 文生视频模型5个月前06310
Wan-Alpha:支持透明通道的高质量文生视频模型在视频编辑、虚拟合成、游戏特效和社交媒体创作中,带有透明背景(Alpha 通道)的视频素材具有不可替代的价值——它们可以无缝叠加到任意场景中,无需后期抠像或遮罩处理。 然而,当前主流的文生视频(Tex...视频模型# Wan-Alpha# 文生视频模型5个月前02760
英伟达提出 DC-Gen:用于加速扩散模型的后训练框架,生成速度快 53 倍在文生图领域,高分辨率输出(如 4K)正成为标配。然而,随之而来的计算成本和推理延迟问题日益凸显——以当前领先的 FLUX.1-Krea-12B 模型为例,在英伟达H100 GPU 上生成一张 4K ...图像模型# DC-Gen# 文生图模型# 英伟达5个月前02830