字节跳动发布 LatentSync 1.6：聚焦高分辨率视频生成，解决模糊问题

视频模型10个月前发布小马良

326 0

字节跳动发布了其对口型视频生成模型 LatentSync 的新版本 1.6，重点解决了此前版本中生成牙齿和嘴唇区域模糊的问题。

模型：https://huggingface.co/ByteDance/LatentSync-1.6

该更新主要通过使用更高分辨率的训练数据实现改进——与 1.5 版本相比，LatentSync 1.6 在 512 × 512 分辨率的视频上进行训练，从而显著提升了局部细节的清晰度。

无架构改动，仅升级训练数据

官方说明指出，此次更新并未对模型结构或训练策略做出任何调整，唯一的变化是将训练数据集从低分辨率升级至 512 x 512 分辨率视频。

这意味着：

模型整体结构保持稳定
训练流程无需重构
代码兼容 LatentSync 1.5 和 1.6

用户只需加载对应的检查点（checkpoint），并在 U-Net 配置文件中修改分辨率参数，即可在两个版本之间自由切换。

为何选择 512x512？

在视频生成任务中，人脸特别是嘴唇和牙齿等细节区域，往往容易因分辨率不足而出现模糊。这些区域对于视觉真实感至关重要，尤其在语音驱动、表情同步等应用中。

通过提升训练数据的清晰度，LatentSync 1.6 能更准确地捕捉面部动态细节，从而提升生成质量，增强用户体验。

相关
端到端唇音同步框架LatentSync：可以分析新的音频信号，并生成与音频同步的口型
ComfyUI-LatentSyncWrapper：基于字节跳动唇音同步框架LatentSync的非官方ComfyUI节点

文章版权归作者所有，未经允许请勿转载。

字节释出Phantom-Wan-14B！从参考图像中提取关键主体元素生成一致性视频

工作流 # Phantom-Wan-14B # 字节跳动 # 视频编辑

10个月前

06880

腾讯微信视觉团队发布 Stand-In：轻量级身份保持视频生成新框架

视频模型 # Stand-In # 视频生成框架

7个月前

05350

开源视频生成项目Open-Sora Plan：基于多种用户输入生成高分辨率、长时长的理想视频

视频模型 # Open-Sora Plan

1年前

02830

Midjourney 正式发布 V1 视频模型：从文本到视频，AI创作迈入新阶段

视频模型 # Midjourney

10个月前

01180

暂无评论

暂无评论...

字节跳动发布 LatentSync 1.6：聚焦高分辨率视频生成，解决模糊问题

无架构改动，仅升级训练数据

为何选择 512x512？

字节跳动发布Seaweed APT2：专为实时交互式场景设计的流式视频生成模型

LoRA-Edit：首帧引导+掩膜控制，实现高质量视频编辑的新方法

相关文章

字节释出Phantom-Wan-14B！从参考图像中提取关键主体元素生成一致性视频

腾讯微信视觉团队发布 Stand-In：轻量级身份保持视频生成新框架

开源视频生成项目Open-Sora Plan：基于多种用户输入生成高分辨率、长时长的理想视频

Midjourney 正式发布 V1 视频模型：从文本到视频，AI创作迈入新阶段

暂无评论

文章

ComfyUI 原生支持 Wan2.2 Fun：首尾帧控制与多模态视频生成全面集成

PaCo-RL：西安交大首创“一致性裁判”强化学习框架，让AI生成四张图也能保持角色与风格完美统

新阿里通义千问发布 Qwen3.5-Omni：全模态原生大模型，215 项 SOTA 碾压 Gemini 3.1 Pro

ComfyUI 动态显存革命：告别显存不足，让 56GB 模型在 32GB 显存上丝滑运行

Cursor 推出 Composer 模型：让 AI 学会“自我总结”，轻松搞定长周期编程

LMArena 最新排名出炉！阿里千问杀入全球前五，Qwen3.5-Max-Preview 力压豆包、Kimi 成国产最强

ITELLOU

OpenMAIC

S.H.I.T

Alaya Code

Jellyfish AI短剧工厂

抓虾吧

字节跳动发布 LatentSync 1.6：聚焦高分辨率视频生成，解决模糊问题

无架构改动，仅升级训练数据

为何选择 512x512？

字节跳动发布Seaweed APT2：专为实时交互式场景设计的流式视频生成模型

LoRA-Edit：首帧引导+掩膜控制，实现高质量视频编辑的新方法

相关文章

文章

标签云

网址

ITELLOU

OpenMAIC

S.H.I.T

Alaya Code

Jellyfish AI短剧工厂

抓虾吧