扩散模型加速框架Glance:仅用 1 张图 + 1 GPU 小时,将扩散模型加速至 8 步武汉大学、新加坡国立大学、中南大学、电子科技大学和微软的研究人员推出一个用于加速扩散模型(Diffusion Models)的轻量级框架 Glance,通过“慢-快”(Slow-Fast)的阶段感知...图像模型# Glance# 加速框架3个月前0850
亚马逊推出全新Nova模型系列及开创性服务:Nova Forge与Nova Act核心要点 Nova 2 模型系列在推理、多模态处理、对话式AI、代码生成及智能体任务方面提供业界领先的性价比。 Nova Forge 服务允许企业通过其独特的“开放训练”方法,在训练早期融入专有数据...大语言模型# NOVA# Nova Act# Nova Forge3个月前0260
STARFlow-V:苹果推出标准化流视频生成模型,挑战扩散模型主流地位苹果最新发布的 STARFlow-V 为视频生成领域带来了全新技术路径——作为一款基于标准化流(Normalizing Flows)的端到端模型,它打破了当前扩散模型主导的格局,凭借全局-局部架构、因...视频模型# STARFlow-V# 流视频生成模型# 苹果3个月前0690
阶跃星辰开源Step-Audio-R1:首个支持测试时计算扩展的音频大语言模型,“越想越准”比肩Gemini 3阶跃星辰开源的 Step-Audio-R1 打破了传统音频模型的性能瓶颈,成为首个支持“测试时计算扩展”的音频大语言模型。它通过创新的模态落地推理蒸馏技术,让模型直接基于声学特征进行链式思考,而非依赖...语音模型# Step-Audio-R1# 阶跃星辰3个月前0430
Mistral AI正式发布Mistral 3系列模型:开源多模态模型家族,覆盖从边缘到企业级场景Mistral AI 正式推出新一代模型系列 Mistral 3,此次发布不仅包含适配边缘场景的 Ministral 3 系列小型密集模型,更带来了性能顶尖的稀疏专家混合模型 Mistral Larg...多模态模型# Mistral 3# Mistral AI# Mistral Large 33个月前01020
阿里开源Ovis-Image:7B 参数实现高质量文本渲染的文生图模型,海报 / UI 设计秒生成Ovis-Image 是由阿里巴巴国际数字商务团队开发的 70亿参数 文本到图像(Text-to-Image)生成模型,专注于解决文生图系统中长期存在的文本模糊、拼写错误、排版失真等痛点。该模型在保持...图像模型# Ovis-Image# 文生图模型3个月前02310
阿里开源Marco-Voice:说话人-情感独立调控,语音克隆相似度0.8275碾压同类阿里巴巴国际数字商务团队推出的开源语音合成框架 Marco-Voice,以“说话人-情感解耦”为核心创新,整合语音克隆、情感可控合成、跨语言生成三大功能,构建了统一且高效的文本转语音系统。该框架通过批...语音模型# Marco-Voice# TTS3个月前0410
DeepSeek V3.2正式发布:推理能力追平GPT-5,首个思考+工具调用开源模型经过两个多月测试,DeepSeek 正式推出 V3.2 系列模型,包括平衡型主力版本 DeepSeek V3.2 与极致推理增强版 DeepSeek V3.2 Speciale。前者以“推理能力不逊 ...大语言模型早报# DeepSeek V3.23个月前01780
字节跳动发布Vidi2:攻克细粒度时空定位,视频检索性能领先GPT - 5字节跳动智能创作团队推出的第二代多模态视频模型Vidi2,凭借在时空定位、时间检索和视频问答三大核心能力上的突破,打破了传统视频模型在长视频理解和精细交互上的局限。该模型不仅在核心任务中实现对Gemi...多模态模型# Vidi2# 多模态视频模型# 字节跳动3个月前01550
Meta AI发布SAM 3:支持文本/图像双提示,图像视频分割性能翻Meta 近日推出 Segment Anything 系列新一代模型——SAM 3,首次实现文本、图像示例双提示驱动的开放式概念分割,可精准识别并分割“带红色条纹的雨伞”等细粒度概念,在图像与视频分割...多模态模型# Meta AI# SAM 3# 分割模型3个月前0200
Meta AI发布SAM 3D:单图生成3D模型,开源全工具链+商业落地同步推进Meta AI近日推出 Segment Anything 模型家族的全新成员——SAM 3D,这是首个具备常识级 3D 理解能力的模型,可直接将普通 2D 照片转化为细节丰富的 3D 重建结果。此次发...3D模型# Meta AI# SAM 3D3个月前0560
SteadyDancer:用 I2V 范式解决首帧失真,生成身份一致的高保真人像动画人体图像动画技术迎来颠覆性突破!南京大学、腾讯与上海AI实验室联合推出的SteadyDancer框架,通过彻底摒弃传统参考图到视频(R2V)范式,转向图像到视频(I2V)全新思路,从根源上解决了长期困...视频模型# SteadyDancer3个月前01130