香港大学 & 达摩院等联合推出：首个第一人称现实世界模拟器 PlayerOne

261 0

由香港大学、阿里达摩院、湖畔实验室和华中科技大学联合研发的全新现实世界模拟系统 PlayerOne 正式亮相。这是首个以第一人称（egocentric）视角为核心的现实世界模拟器，标志着AI在沉浸式交互环境建模领域迈出了重要一步。

项目主页：https://playerone-hku.github.io
GitHub：https://github.com/yuanpengtu/PlayerOne

PlayerOne 能够根据用户上传的第一人称场景图像，构建一个动态、逼真的虚拟世界，并生成与用户通过外视角（exocentric）相机捕捉到的真实动作高度对齐的视频内容。这项技术为虚拟现实、增强现实、数字人交互等前沿领域带来了新的可能性。

核心功能亮点

1. 实时动作捕捉与对齐

用户可以通过外部摄像头捕捉自己的动作（如伸手拿物、转身走动等），PlayerOne 可实时生成与之完全同步的虚拟角色动作视频。

2. 场景一致性建模

在长视频生成过程中，PlayerOne 保证了场景结构的一致性，避免传统模型常见的“场景错乱”或“物品凭空消失”等问题。

3. 自由运动控制

支持多样化的自然动作输入，而非仅限于预设动作，真正实现用户自由探索虚拟世界的体验。

4. 高效生成能力

借助模型蒸馏等技术优化，PlayerOne 支持实时视频生成，具备良好的落地应用潜力。

核心技术突破

1. 部分解耦的动作注入（PMI）

将人体动作拆分为头部、手部和身体三个部分分别处理，再合并注入模型，实现更精确的动作控制，尤其在头部姿态和视角变化上表现优异。

2. 联合场景-帧重建（SR）

同时建模 4D 场景点云和视频帧信息，确保生成视频不仅动作准确，场景也高度一致，特别适用于长时间视频生成任务。

3. 粗到细的训练策略

先在大规模第一人称文本-视频数据集上进行粗粒度预训练，随后在高质量动作-视频对上进行微调，提升模型泛化能力并弥补数据稀缺问题。

4. 自动化数据集构建流程

从现有的第一人称-第三人称视频数据集中自动提取动作-视频配对样本，构建高质量训练数据，降低人工标注成本。

工作原理简析

PlayerOne 的整体流程如下：

输入处理
- 用户上传一张第一人称视角图片作为初始场景；
- 同步使用外视角摄像头捕捉用户的实际动作序列。
动作解耦与编码
- 将动作分解为头部、手部、身体三个部分；
- 分别通过专用编码器提取潜在表示，并融合后注入生成模型。
场景建模与重建
- 利用点云重建技术生成 4D 场景点云图；
- 使用带适配器的编码器提取场景特征并与视频特征融合。
视频生成与去噪
- 在 DiT 模型中对融合后的潜在空间进行加噪与去噪操作；
- 最终通过 VAE 解码器输出视频结果。
推理阶段简化
- 推理时只需提供第一帧图像和动作序列即可完成生成。

实验验证与性能表现

定量评估

PlayerOne 在多个关键指标上优于现有方法：

DINO-Score（衡量视觉一致性）表现优异；
CLIP-Score（文本-图像匹配度）显著提升；
MPJPE（关节位置误差）更低，说明动作建模更加精准。

用户研究反馈

用户对 PlayerOne 生成视频的评价包括：

视觉质量高；
动作流畅自然；
场景一致性好；
与文本描述或动作输入高度对齐。

动作对齐测试

通过不同动作条件下生成的视频对比，验证了 PlayerOne 在复杂动作响应上的稳定性和准确性。

未来展望

PlayerOne 是以第一人称视角为核心的世界建模系统的首次尝试，为未来的沉浸式交互系统提供了坚实基础。它不仅推动了 AI 在真实动态环境建模中的边界，也为以下方向打开了新思路：

更自然的虚拟人交互体验；
基于第一视角的智能助手系统；
结合AR/VR的沉浸式游戏引擎；
个性化虚拟世界构建工具。

尽管目前仍面临诸如长序列记忆维持、物理规律约束等挑战，但其创新性的架构设计与训练策略已展现出巨大的发展潜力。

新技术 # PlayerOne # 现实世界模拟器

文章版权归作者所有，未经允许请勿转载。

Garment3DGen：根据真实世界的图像或通过文本描述生成的图像来创建3D服装模型

新技术 # 3D服装模型 # Garment3DGen

2年前

07360

纯视觉推理新范式Visual Planning：通过纯视觉表征进行规划，无需依赖文本

新技术 # Visual Planning # 视觉推理

10个月前

02630

通过推理计算来提高通用奖励建模（RM）的推理时间可扩展性

新技术 # DeepSeek # 奖励建模 # 清华大学

11个月前

03190

自回归技术StreamingT2V：能够创建具有丰富运动动力学的长视频，不会出现停滞现象

新技术 # StreamingT2V # 自回归技术

2年前

06680

暂无评论

暂无评论...

香港大学 & 达摩院等联合推出：首个第一人称现实世界模拟器 PlayerOne

核心功能亮点

1. 实时动作捕捉与对齐

2. 场景一致性建模

3. 自由运动控制

4. 高效生成能力

核心技术突破

1. 部分解耦的动作注入（PMI）

2. 联合场景-帧重建（SR）

3. 粗到细的训练策略

4. 自动化数据集构建流程

工作原理简析

实验验证与性能表现

定量评估

用户研究反馈

动作对齐测试

未来展望

苹果推出可扩展生成模型STARFlow：基于归一化流（NFs），在高分辨率图像合成方面取得了显著的成果

基于“幅度感知”的新型缓存机制MagCache：用于加速图像和视频扩散模型的生成过程

相关文章

Garment3DGen：根据真实世界的图像或通过文本描述生成的图像来创建3D服装模型

纯视觉推理新范式Visual Planning：通过纯视觉表征进行规划，无需依赖文本

通过推理计算来提高通用奖励建模（RM）的推理时间可扩展性

自回归技术StreamingT2V：能够创建具有丰富运动动力学的长视频，不会出现停滞现象

暂无评论

文章

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

Anthropic 为“退役”的 Claude 3 Opus 开设 Substack 专栏：全球首个 AI 博客实验，每周发布“退休思考”

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

Jina AI推出文本嵌入模型Jina Embeddings v4：多模态多语言检索的通用嵌入模型

Lightricks 双重重磅发布：LTX-2.3 模型进化与 LTX Desktop 开源编辑器，本地视频生成时代正式来临

S.H.I.T

新QClaw

CoPaw

waoo

新WorkBuddy

新ArkClaw

香港大学 & 达摩院等联合推出：首个第一人称现实世界模拟器 PlayerOne

核心功能亮点

1. 实时动作捕捉与对齐

2. 场景一致性建模

3. 自由运动控制

4. 高效生成能力

核心技术突破

1. 部分解耦的动作注入（PMI）

2. 联合场景-帧重建（SR）

3. 粗到细的训练策略

4. 自动化数据集构建流程

工作原理简析

实验验证与性能表现

定量评估

用户研究反馈

动作对齐测试

未来展望

苹果推出可扩展生成模型STARFlow：基于归一化流（NFs），在高分辨率图像合成方面取得了显著的成果

基于“幅度感知”的新型缓存机制MagCache：用于加速图像和视频扩散模型的生成过程

相关文章

文章

标签云

网址

S.H.I.T

新QClaw

CoPaw

waoo

新WorkBuddy

新ArkClaw