复杂运动、多模态参考、双声道音频!字节跳动正式发布Seedance 2.0:统一多模态架构, 支持导演级编辑的工业级音视频生成字节跳动正式推出新一代视频创作模型 Seedance 2.0。作为迭代升级后的重磅版本,它采用全新统一的多模态音视频联合生成架构,全面支持文本、图片、音频、视频四种模态输入,集成了当前行业内覆盖面最广...早报视频模型# Seedance 2.0# 字节跳动6天前050
MiniMax正式发布MiniMax M2.5 :更快、更强、更智能,专为现实生产力打造今天,MiniMax 正式推出全新一代大模型——MiniMax M2.5。这款模型依托在数十万个复杂真实世界环境中开展的大规模强化学习训练,实现了能力的全面升级。 在编程开发、智能体工具使用与信息搜索...大语言模型早报# MiniMax# MiniMax M2.56天前01320
Soul AI Lab推出SoulX-FlashTalk :140 亿参数模型实现 0.87 秒启动、32 FPS 实时数字人直播当前 AI 数字人技术面临一个根本矛盾:高保真生成与实时性难以兼得。顶尖模型虽能生成逼真口型与表情,但因依赖多步迭代去噪,生成一秒钟视频常需数秒甚至更久,无法用于视频通话、直播带货等实时交互场景。更严...视频模型# Soul AI Lab# SoulX-FlashTalk# 数字人1周前0130
复旦与微软提出 ArcFlow:基于动量建模的非线性蒸馏框架,2 步生成高质量图像,加速 40 倍扩散模型凭借卓越的生成质量成为图像生成领域的核心技术,但40-100步的迭代去噪过程导致推理速度极慢,难以落地到实时应用场景。复旦大学与微软亚洲研究院联合提出的ArcFlow框架,通过非线性轨迹蒸馏的...图像模型# ArcFlow# 推理加速1周前0180
智谱AI正式发布GLM-5:744B参数+28.5T数据,长周期智能体能力登顶开源第一智谱AI正式推出新一代通用大模型——GLM-5,这款模型在设计之初就明确了核心定位:面向复杂系统工程和长周期智能体任务,致力于打破基础模型“只能聊天、难以落地”的局限,实现从“氛围编程”到“智能体工程...大语言模型# GLM-5# 智谱AI1周前0140
SoulX-Singer:42,000 小时训练的零样本歌声合成模型,支持 MIDI 与旋律双模式控制Soul AI Lab(中国)联合吉利汽车研究院、天津大学及西北工业大学,共同发布了一款高保真、零样本歌声合成模型——SoulX-Singer。这款模型的核心优势的是,无需对未见歌手进行任何微调,就能...语音模型# SoulX-Singer# 歌声合成模型1周前0150
阿里重磅发布Qwen-Image-2.0 :支持 1K token 指令生成专业信息图,生图编辑一体化阿里全新推出新一代图像生成基础模型Qwen-Image-2.0,凭借专业文字渲染、细腻真实质感、超强语义遵循、轻量模型架构四大核心特色,实现生图与编辑功能的一体化融合,在文生图和图生图双赛道均展现出优...图像模型# Qwen-Image-2.01周前0170
Cursor 发布 Composer 1.5:强化学习提升 20 倍,支持复杂代码推理Cursor 团队近日正式推出其智能编程模型 Composer 1.5,作为对前代 Composer 1 的重大升级。新版本聚焦于复杂、多步骤编程任务的处理能力,在推理深度、上下文管理和响应效率上均实...大语言模型# Composer 1.5# Cursor1周前070
Linacodec:12.5 令牌/秒的高压缩音频分词器,支持 48kHz 高清语音在 AI 语音模型(TTS/ASR)领域,音频分词器(Audio Tokenizer)的效率直接决定训练速度、推理延迟与生成质量。传统方案如 EnCodec、DAC 虽能压缩音频,但令牌率高、采样率低...语音模型# Linacodec# 音频分词器2周前0100
Helcyon-Mercury-12B-v3.0:基于 Mistral Nemo 的高情感智能对话模型在本地大模型(Local LLM)生态中,大多数模型追求的是“能回答问题”或“会写代码”。但 Helcyon-Mercury-12B-v3.0 的目标截然不同——它不满足于做一台“聊天机器”,而是试图...大语言模型# Helcyon-Mercury-12B-v3.02周前0130
Voyage AI 推出Voyage 4 系列模型:共享嵌入空间 + 专家混合架构,重新定义文本嵌入效率Voyage AI 正式推出 Voyage 4 系列文本嵌入模型,带来两项行业首创技术:统一的共享嵌入空间 与 首个生产级 MoE(专家混合)嵌入模型。这一系列不仅在检索精度上树立新标杆,更通过灵活的...大语言模型# Voyage 4# Voyage AI# voyage-4-nano2周前0200
VideoMaMa:基于扩散模型的视频抠图新SOTA,粗糙掩码一键生成高精度Alpha遮罩高丽大学、Adobe Research 与 KAIST AI 联合提出 VideoMaMa(Video Mask-to-Matte Model),一种基于 Stable Video Diffusion...视频模型# VideoMaMa# 视频抠图2周前0130