谷歌推出创新框架VLOGGER：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

400 0

谷歌推出创新框架VLOGGER，它能够根据一段音频和一张人物的单张照片生成这个人说话和动作的逼真视频。想象一下，你只需提供一张你的照片和你的语音记录，VLOGGER就能制作出一个视频，在视频中你可以看到自己在说话、眨眼、做手势，甚至整个上半身的动作都与你的语音同步。

项目主页

VLOGGER基于生成扩散模型，包括一种随机的人物到3D动作扩散模型，以及一种新的基于扩散的架构，将文本到图像模型与时间和空间控制相结合。据介绍，VLOGGER可以生成高质量、长度可变的视频，并通过人脸和身体的高级表达进行控制。

谷歌推出创新框架VLOGGER：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

阿里同类技术：创新框架EMO：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

主要功能：

音频驱动的视频生成：VLOGGER可以根据提供的音频输入生成与之匹配的人类动作视频。

高质量视频输出：生成的视频具有高分辨率和良好的视觉效果，包括面部表情、头部运动、眨眼和手部动作。

身份保持和多样性：VLOGGER在生成视频时能够保持人物的身份特征，并且能够展现出丰富的表情和动作多样性。

主要特点：

不依赖于人脸检测和裁剪：与以往的方法不同，VLOGGER不需要对人物脸部进行检测和裁剪，它可以直接使用完整图像。

广泛的应用场景：适用于内容创作、娱乐、游戏等行业，也可以用于在线沟通、教育、个性化虚拟助手等领域。

工作原理：

VLOGGER的工作流程分为两个阶段。

第一阶段是一个基于随机扩散模型的网络，它根据输入的音频信号预测身体运动和面部表情。

第二阶段是一个时间扩散模型，它结合了文本到图像的模型，并增加了空间和时间的控制，从而生成与输入控制相匹配的视频帧。

VLOGGER还利用了在预训练期间获得的生成性人类先验知识，以改善图像扩散模型的生成能力。

具体应用场景：

视频编辑和个性化：VLOGGER可以用于编辑视频，例如改变视频中人物的嘴型、眼睛状态或保持睁眼，同时保持时间上的连贯性。

虚拟助手和角色动画：在虚拟助手或游戏角色动画中，VLOGGER可以根据用户的语音指令生成逼真的角色动作和表情。

社交媒体内容创作：内容创作者可以使用VLOGGER来生成有趣的视频内容，而无需复杂的视频拍摄和编辑技术。

总的来说，VLOGGER是一个强大的工具，它将音频驱动的人类视频生成技术推向了一个新的高度，通过理解和模拟人类的复杂行为，为各种行业和应用提供了新的可能性。

文章版权归作者所有，未经允许请勿转载。

视频生成框架RepVideo：通过重新思考跨层表示来提高文生视频模型的性能

新技术 # RepVideo # 视频生成框架

3个月前

0980

谷歌开放免费版 Gemini 文件上传及分析功能

早报 # Gemini # 谷歌

2个月前

01150

去噪方法GeneOH Diffusion：解决手-物体交互（HOI）去噪的问题

新技术 # GeneOH Diffusion

1年前

06170

谷歌推出升级Gemini 2.0模型，助力AI 搜索与助手全面进化

早报 # Gemini 2.0 # 谷歌

1个月前

0600

暂无评论

暂无评论...

谷歌推出创新框架VLOGGER：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

DragAnything：视频生成中任意对象的运动控制

视觉风格提示（Visual Style Prompting）：不需要对模型进行微调的情况下，通过参考图像来生成具有特定风格的图像

相关文章

视频生成框架RepVideo：通过重新思考跨层表示来提高文生视频模型的性能

谷歌开放免费版 Gemini 文件上传及分析功能

去噪方法GeneOH Diffusion：解决手-物体交互（HOI）去噪的问题

谷歌推出升级Gemini 2.0模型，助力AI 搜索与助手全面进化

暂无评论

文章

200美元搞定10款热门工具！Lenny’s Newsletter年度订阅限时福利

OpenAI新推理模型o3和o4-mini：性能提升，幻觉问题却更严重

新ComfyUI已原生支持首尾帧视频生成模型Wan2.1-FLF2V-14B：提供起始帧和结束帧两张图像即可生成自然流畅的720p高清视频

Anthropic旗下Claude 升级：整合 Google Workspace 和全新研究功能

新ComfyUI原生支持Wan2.1 Fun InP ：通过图像生成视频并实现首尾帧控制

ComfyUI已原生支持文生图模型HiDream-I1，官方发布工作流

Tripo

朱雀大模型检测

Open ASR 排行榜

MinerU

Daan

MagicArena

谷歌推出创新框架VLOGGER：只需要提供一张静态照片和一段语音，就能生成口型匹配的视频

DragAnything：视频生成中任意对象的运动控制

视觉风格提示（Visual Style Prompting）：不需要对模型进行微调的情况下，通过参考图像来生成具有特定风格的图像

相关文章

文章

标签云

网址

Tripo

朱雀大模型检测

Open ASR 排行榜

MinerU

Daan

MagicArena