腾讯混元团队推出的HY-World 1.5,凭借核心模块WorldPlay流式视频扩散模型,成功打破了现有3D世界生成模型“实时交互”与“长期几何一致性”不可兼得的技术瓶颈,实现了24 FPS的实时流式视频生成,为沉浸式3D虚拟世界构建、游戏开发、数字孪生等场景提供了全新的技术方案。
- 项目主页:https://3d-models.hunyuan.tencent.com/world
- GitHub:https://github.com/Tencent-Hunyuan/HY-WorldPlay
- 模型:https://huggingface.co/tencent/HY-WorldPlay
- Demo:https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay
相较于初代HY-World 1.0依赖离线生成、无法支持用户实时交互的短板,HY-World 1.5通过四项核心创新设计,构建了一套从模型架构到训练部署的完整实时建模系统,彻底解决了速度与内存的权衡难题。

四大核心技术创新:兼顾实时性与一致性
HY-World 1.5的技术突破集中在动作控制、记忆机制、强化学习优化和模型蒸馏四个维度,从底层架构上保障了实时交互与几何一致性的双重需求:
- 双重动作表示:精准响应用户交互指令
模型创新性地融合离散动作信号(如键盘按键输入)与连续相机姿态(如鼠标控制的视角变化),实现对用户操作的精细化动作控制。这种设计让模型既能精准识别用户的交互意图,又能快速映射到虚拟世界的视角变换和场景移动,为第一人称、第三人称视角的实时切换提供了技术支撑。 - 重构上下文记忆:缓解记忆衰减,维持长期一致性
这是解决3D世界建模“几何漂移”问题的关键技术。模型会从过去生成的视频帧中动态重建上下文记忆,并通过时间重构机制,让那些对几何结构至关重要但时间久远的帧保持可访问性。即使用户反复切换视角、长时间探索同一虚拟区域,模型也能精准还原场景的几何细节,避免出现“换个角度场景就变形”的问题。 - WorldCompass强化学习后训练框架:提升动作跟随与视觉质量
针对长时域自回归视频模型容易出现的动作偏移、视觉模糊问题,HY-World 1.5引入了专属强化学习框架WorldCompass。通过设计针对性的奖励函数,模型在训练过程中会不断优化动作跟随精度和画面细节表现,最终实现复杂交互场景下的流畅生成效果。 - 上下文强制蒸馏:实现实时速度与长距离信息利用的平衡
这是一种专为记忆感知模型设计的蒸馏方法。在教师模型与学生模型之间对齐记忆上下文,既保留了学生模型利用长距离历史信息的能力,又通过蒸馏压缩了模型体量,有效降低推理延迟。这一设计让模型在实现24 FPS实时生成的同时,还能避免因追求速度而导致的误差漂移。

核心功能与应用场景:覆盖多样化交互式建模需求
依托上述技术创新,HY-World 1.5具备了从“静态生成”到“动态交互”的能力跃升,核心功能可支撑多类实际应用:
- 实时交互式3D世界生成
用户只需输入单张参考图像或文本提示,模型就能以24 FPS的速度生成连续视频流。通过键盘和鼠标的实时控制,可自由切换第一人称或第三人称视角,沉浸式探索虚拟世界,这一能力可直接应用于游戏原型快速开发、虚拟展厅互动设计等场景。 - 文本触发动态事件
支持通过自然语言指令修改虚拟世界,例如输入“让天空下起雨”“在广场添加一座雕像”,模型就能实时响应并生成对应的场景变化,无需中断生成流程。这为交互式叙事、虚拟仿真实验提供了灵活的编辑能力。 - 几何一致的3D重建支持
生成的视频流具备严格的几何一致性,可直接用于高质量3D场景重建。相较于传统重建方法依赖多视角图像采集的繁琐流程,HY-World 1.5能通过交互式生成快速输出可复用的3D模型,大幅降低数字孪生、元宇宙场景构建的成本。

系统框架与部署要求:开源易用,兼顾性能与门槛
1. 全流程开源训练框架
HY-World 1.5开源了覆盖数据准备、预训练、中期训练、强化学习后训练、记忆感知蒸馏的完整流程,技术报告中详细披露了各阶段的训练细节。同时,团队还提供了一系列工程优化技术,包括混合并行计算、流式部署、模型量化、高效注意力机制等,进一步降低网络传输和推理延迟,保障实时交互体验。

2. 推理流程与硬件要求
- 推理逻辑:模型采用“分块预测”的方式工作——给定初始提示后,每次预测16个视频帧;在生成每个块时,动态重构历史上下文记忆,确保长时域的几何一致性。
- 硬件门槛:需使用支持CUDA的NVIDIA GPU,最小GPU内存为14 GB(启用模型卸载功能);若GPU内存充足,可关闭卸载功能以进一步提升推理速度,满足更高帧率的需求。
测试表现:多项指标领先,获人类用户高度认可
在定量与定性评估中,HY-World 1.5的表现全面优于CameraCtrl、SEVA、ViewCrafter等主流基线方法:
- 定量指标:在600个测试案例中,无论是短时(61帧)还是长时(≥250帧)生成任务,模型在PSNR(峰值信噪比)、SSIM(结构相似性)、LPIPS(感知相似度)等核心指标上均显著领先,尤其在长时生成中,有效避免了其他方法因误差累积导致的性能下降。
- 人类偏好测试:在与Matrix-Game 2.0的对比测试中,HY-World 1.5的用户偏好率达到92.1%,充分证明其生成的虚拟世界在视觉质量、交互流畅度上更符合用户预期。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















