Physion Labs推出Galileo-0：迈向可扩展的世界模型评判器

Physion Labs 正式推出了 Galileo-0，这是首个专为世界模型（World Models）设计的自动化评判器。它不再仅仅给生成视频打一个模糊的分数，而是通过结构化的时空推理，精准诊断视频中出现的物理故障：什么错了、何时开始、在哪里发生，以及为什么违反物理规则。

官方介绍：https://physionlabs.ai/blog/galileo-0

这一突破旨在解决当前视频生成领域的一个核心矛盾：视觉上越来越逼真，但物理上却漏洞百出。

背景：视觉欺骗 vs. 物理真相

在 Physion Labs 之前的研究（Physion-Eval）中，团队提出了一个尖锐的问题：随着视频生成器在视觉上变得令人信服，它们是否也成为了更好的物理世界模型？

答案是否定的。
对五个最先进模型（包括 Sora, Kling, Veo 等）的测试显示：

83.3% 的外部视角视频包含至少一个人眼可识别的物理故障。
93.5% 的第一人称视角视频存在物理瑕疵。

这些故障包括物体突然消失、穿模、重力异常、手部结构错误等。为了系统性地解决这一问题，团队构建了包含 10,990 条专家推理轨迹 的基准测试，涵盖 22 个细粒度物理类别，每条数据都附带精确的时间戳、结构化标签和自然语言解释。

为什么我们需要“世界评判器”？

现有的评估方法主要依赖标量偏好分数（即“哪个视频更好看”），但这对于训练世界模型远远不够：

缺乏诊断信息：一个分数无法告诉模型哪里出了问题，无法指导模型进行针对性优化。
人类评判不可扩展：
- 人类专家进行细粒度时空标注极其耗时。
- 判断一个无故障视频需 2.5 分钟；含 1-5 个故障的视频需 18 分钟；复杂案例甚至超过 45 分钟。
- 未经训练的普通人往往无法发现或准确描述细微的物理违规。

Galileo-0 的目标：以自动化的方式，重现人类专家的结构化诊断能力，为模型提供高密度的对齐信号（Alignment Signal）和迭代优化依据。

核心架构：两阶段时空推理流程

Galileo-0 的设计灵感来源于目标检测和时序动作定位（如 Fast R-CNN），采用独特的两阶段流程：

第一阶段：时空感知 (Spatio-Temporal Perception)

任务：提出故障候选区域（Proposals）。
机制：模型扫描整个视频，在空间和时间维度上锁定可能出现物理不一致的“可疑片段”。这将搜索范围从全视频缩小到具体的事件窗口。

第二阶段：时空推理 (Spatio-Temporal Reasoning)

任务：深度验证与诊断。
机制：对每个候选区域进行精细化分析。模型结合上下文，推理所提出的区域是否真的违反了物理预期。
- 例如：猫消失在遮挡物后 $\rightarrow$ 合理（非故障）。
- 例如：车轮旋转但车身静止 $\rightarrow$ 违规（物理故障）。
输出：生成详细的自然语言解释、精确的时间段和空间位置。

训练数据：利用专有的多模态大语言模型，以 10,990 条人类专家推理轨迹 作为监督信号进行训练。

性能表现：碾压通用多模态模型

在提出的故障级别微观 F1 指标下，Galileo-0 展现了压倒性的优势。测试涵盖了 Veo3, Kling, Sora2, Wan2.6, Seedance 等生成的视频。

模型	整体 F1	文本相关故障 F1	物体相关故障 F1
Galileo-0	63.26%	84.10%	37.17%
GPT-5.4	38.89%	53.20%	-
Gemini 3.1 Pro	36.48%	-	-
Qwen3.5-Plus	35.15%	-	-
GLM-5V Turbo	25.42%	-	-
Pegasus 1.2	3.40%	-	-

关键洞察：

全面领先：Galileo-0 在所有设置中均取得最高 F1 分数，特别是在文本一致性检测上，比最强的基线（GPT-5.4）高出 30 个百分点。
局部定位能力：Galileo-0 能够精准定位到极小的空间区域（如一个单词、一只手、斧头头部）和短暂的时间窗口，这是通用多模态大模型（MLLMs）难以做到的。
挑战犹存：物体相关故障（如物体消失、结构错误）由于变化多样且微妙，检测难度依然较大（F1 37.17%），这也是未来迭代的重点。

意义与未来：从“看起来像”到“动起来对”

Galileo-0 不仅仅是一个评估工具，它是下一代视频生成工作流的核心组件：

强化学习对齐 (RLHF for Video)：提供结构化的奖励信号，引导模型不仅优化像素分布，更优化物理合理性。
推理时优化 (Inference-time Optimization)：在生成过程中，利用 Galileo-0 的反馈进行迭代修正（类似智能体式的图像精炼），实时纠正物理错误。
可扩展的基准测试：摆脱了对昂贵人工标注的依赖，使得大规模、高频次的模型评估成为可能。

未来展望：