小马良

帅气的我简直无法用语言描述!
谷歌翻译上线实时语音翻译:基于 Gemini 2.5 Flash Audio,支持 70 种语言

谷歌翻译上线实时语音翻译:基于 Gemini 2.5 Flash Audio,支持 70 种语言

谷歌为其 Gemini 音频模型 推出重大更新,并率先集成到 谷歌翻译应用 中,带来一项真正实用的实时语音到语音翻译能力。这项功能专为耳机场景设计,目标很简单:让你在现实世界中“听见”翻译后的声音。 ...
19小时前
050
面壁智能发布 VoxCPM1.5:6.25Hz 标记率降低计算开销,支持高质量声音克隆

面壁智能发布 VoxCPM1.5:6.25Hz 标记率降低计算开销,支持高质量声音克隆

2025 年 12 月 5 日,面壁智能正式发布 VoxCPM1.5 模型权重。作为 VoxCPM 系列的重大升级版本,它在保留上下文感知语音生成与零样本声音克隆能力的基础上,通过两项关键技术改进,显...
2天前
060
Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

在办公自动化、知识管理与智能体工作流中,将非结构化文档转化为结构化数据是关键第一步。然而,现实中的文档来源复杂:既有干净的 PDF、Word,也有手机拍摄的带畸变、阴影、模糊的纸质文件。现有解析模型往...
2天前
0160
谷歌Gemini深度研究智能体升级:Gemini 3 Pro加持,开放API赋能开发者

谷歌Gemini深度研究智能体升级:Gemini 3 Pro加持,开放API赋能开发者

谷歌近日对Gemini Deep Research(深度研究智能体)完成重大升级,不仅将模型底座更换为更强大的Gemini 3 Pro,还首次开放交互API供开发者调用。此次升级重点解决了AI研究中的...
2天前
060
智谱AI发布 Kaleido:通过多参考图像生成主体一致视频的 S2V 框架

智谱AI发布 Kaleido:通过多参考图像生成主体一致视频的 S2V 框架

在主体到视频(Subject-to-Video, S2V)生成任务中,目标是根据用户提供的多张目标主体参考图像和文本提示,合成一段主体身份一致、动作自然、背景可控的视频。尽管近期 S2V 模型取得进展...
2天前
070
智谱AI提出 SSVAE:通过谱结构优化提升视频VAE“可扩散性”的新方法

智谱AI提出 SSVAE:通过谱结构优化提升视频VAE“可扩散性”的新方法

在基于扩散模型的视频生成系统中,视频变分自编码器(VAE) 扮演着关键角色:它将像素空间视频压缩到潜在空间,供扩散模型高效训练。然而,现有视频 VAE 的设计往往过度聚焦于重建保真度,却忽视了一个更根...
2天前
040
智谱AI发布面向生产级角色动画的生成框架 SCAIL:通过3D一致姿态表征实现影棚级角色动画

智谱AI发布面向生产级角色动画的生成框架 SCAIL:通过3D一致姿态表征实现影棚级角色动画

高质量角色动画长期以来依赖昂贵的动作捕捉设备、繁琐的手动绑定和大量人力修型。尽管近年视频生成模型取得进展,但在复杂动作、风格化角色、多角色交互等场景下,现有方法仍普遍存在结构失真、时间不连贯、身份泄漏...
2天前
090
智谱AI开源 RealVideo:基于自回归扩散的实时流式对话视频系统

智谱AI开源 RealVideo:基于自回归扩散的实时流式对话视频系统

随着多模态生成技术的发展,用户对虚拟角色的期待已从“能说话”升级为“能自然表达、实时互动、持续存在”。为此,智谱AI推出了 RealVideo —— 一个端到端实时流式视频对话系统,能够将文本对话实时...
2天前
070
阿里通义联合多所高校推出 Wan-Move:无需额外模块,实现高精度动作控制的视频生成框架

阿里通义联合多所高校推出 Wan-Move:无需额外模块,实现高精度动作控制的视频生成框架

在视频生成领域,动作控制是连接静态图像与动态叙事的关键环节。然而,现有方法普遍存在两个瓶颈:一是控制粒度粗糙(如仅用边界框控制整体移动),二是依赖额外模型(如光流估计器),导致推理复杂、误差累积、难以...
2天前
0120
MotionEdit:首个专注动作编辑的图像生成基准与训练框架

MotionEdit:首个专注动作编辑的图像生成基准与训练框架

当前主流的图像编辑模型在处理静态属性(如颜色、纹理、物体替换)时已相当成熟,但在修改图像中主体的动作、姿势或交互行为时仍面临显著挑战。例如,让一个人从“站立”变为“坐下”,或让其“拿起桌上的杯子”,现...
2天前
050