当AI智能体还在2D界面或简单场景中“试水”时,字节跳动 Seed 团队带来了突破性进展——正式推出 Lumine,一款在《原神》3D开放世界中训练的通用AI智能体。它无需人工干预,就能实时感知游戏画面、自主思考策略、精准执行键鼠操作,甚至能独立完成长达数小时的复杂主线任务,更展现出惊人的跨游戏泛化能力,重新定义了AI在游戏领域的应用边界。
核心战绩:跨游戏无微调通关,3D开放世界轻松拿捏
Lumine 的实力并非空谈,而是经过多款热门游戏的实战验证,战绩亮眼:
1. 《原神》主战场:零额外训练,通关多区域主线
- 蒙德地区:仅基于第一幕内容进行推理训练,却自主完成了长达5小时、共三幕的主线剧情,全程无卡顿推进;
- 璃月地区:完全未经过该区域训练,仍凭借泛化能力成功抵达璃月港、完成主线任务,甚至主动探索深山中的仙人居所,展现出类人的探索欲与任务拆解能力。
2. 跨游戏挑战:无需微调,直接通关《星穹铁道》《鸣潮》
- 《崩坏:星穹铁道》:零额外适配,独立通关黑塔空间站第一章全部主线(耗时约7小时),完美适配回合制战斗与剧情推进逻辑;
- 《鸣潮》:快速适应全新游戏机制,完成约100分钟主线剧情,从开放世界探索到角色交互无缝衔接。
这种“一套模型通吃多款游戏”的能力,打破了传统游戏AI“一款游戏一套脚本”的局限,凸显了其“通用智能”的核心特质。

技术内核:类人交互范式,视觉-语言模型驱动全链路
Lumine 的强大表现,源于其“感知-思考-行动”端到端统一的类人交互架构,核心技术亮点如下:
1. 硬件级实时响应:兼顾效率与精准度
- 以5Hz频率处理原始游戏画面(相当于每秒分析5帧图像),同时以30Hz生成键鼠操作(匹配主流游戏帧率),仅在关键节点(如解谜、Boss战)启动深度思考,避免算力浪费,实现“快响应+准操作”的平衡。
2. 三阶训练体系:从“会操作”到“会思考”
Lumine 基于大规模真实游戏数据,循序渐进构建能力:
- 预训练(1731小时人类游戏数据):学会“看画面做动作”,精准输出键鼠操作(如移动、攻击、对话);
- 指令对齐(200小时指令跟随数据):建立语言与操作的映射,能听懂用户指令(如“前往璃月港找钟离”)并转化为行动;
- 推理强化(15小时推理数据):赋予灵活思考能力,可拆解复杂任务、应对突发情况(如Boss技能躲避、解谜逻辑推导)。
3. 多维度能力覆盖:战斗、解谜、交互全精通
- 战斗能力:动态追踪敌人、弓箭远程精准命中、角色连招切换、战后宝箱搜索,甚至能理解Boss机制并制定应对策略;
- 解谜能力:凭借深度空间感知与游戏机制理解,攻克各类机关谜题;
- 交互能力:在多人环境中稳定与指定NPC互动,为长期任务铺垫;
- GUI操作能力:像人类一样通过鼠标移动操作2D界面(如背包、任务面板),实现3D世界与2D界面的无缝衔接。

关键优势:上下文学习+通用泛化,迈向真正的通用智能体
Lumine 最值得关注的亮点,是其超越“游戏AI”的通用潜力:
- 上下文学习能力:若在指令中提供任务先验信息(如“先收集3个清心再找NPC”)或步骤分解,就能完成此前无法实现的复杂任务,具备极强的灵活适配性;
- 跨场景泛化能力:不仅能跨游戏适配,更能覆盖3D开放世界探索、2D界面操作、战斗、解谜、交互等多种场景,为未来应用于更多3D虚拟环境(如元宇宙、虚拟办公)奠定基础。
而《原神》丰富的玩法(开放世界探索、多角色战斗、复杂解谜、NPC交互),恰好为Lumine的能力训练提供了理想的“全能训练场”,使其能在单一游戏中练就多维度通用技能。