AI 修图终于“指哪打哪”：SpatialEdit 实现精准空间操控，告别画面扭曲

图像模型4小时前发布小马良

3 0

现在的 AI 画图工具，大多有个“通病”：你让它“把车往左挪一点”，它可能给你换了一辆车；你让它“旋转 30 度”，它可能直接把车轮画歪了。

它们懂语义，但不懂空间。

最近，由香港大学、京东探索研究院、清华大学等团队联合推出的 SpatialEdit，试图解决这个问题。它不再只是“大概改一改”，而是真正实现了“指哪改哪”的精准空间操控。

GitHub：https://github.com/EasonXiao-888/SpatialEdit
模型：https://huggingface.co/EasonXiao-888/SpatialEdit-16B

AI 修图终于“指哪打哪”：SpatialEdit 实现精准空间操控，告别画面扭曲

什么是 SpatialEdit？

简单来说，它是一个懂几何、懂空间的图像编辑模型。

不同于传统 AI 只能换个风格或增减物体，SpatialEdit 能精准执行包含空间几何信息的指令。比如：

“把这只猫移到红色框内。”
“将汽车旋转到右后方视角。”
“相机向左旋转 90 度。”

它不仅听得懂，还能做得准——物体位置、大小、角度严丝合缝，背景不穿帮，画面不扭曲。

核心能力：物体与相机的双重掌控

SpatialEdit 主要解决两大类难题：

物体级操控：
- 移动：精准定位，想放哪就放哪。
- 旋转：支持前、后、左、右等 8 个方向的视角转换。
- 缩放：调整大小而不破坏背景结构。
相机级操控：
- 视角变换：左右偏航、上下俯仰，模拟真实摄影机的运动。
- 变焦：放大或缩小画面，保持场景透视自然。

最重要的是保真。它在修改空间关系的同时，牢牢锁住物体的外观特征和背景的完整性，避免了传统方法中常见的“液化感”或“鬼影”。

它是怎么做到的？

SpatialEdit 的核心逻辑可以概括为三步：

建立 3D 认知：通过海量合成的 3D 数据训练，让模型理解物体在三维空间中的位置、角度和透视关系。
精准指令解析：将自然语言中的空间指令（如“左转 30 度”）转化为具体的几何约束。
级联生成：在严格的空间约束下生成新图像，确保每一步变化都符合物理规律。

为了验证效果，团队还发布了包含 50 万训练数据的专用数据集和评测基准，并开源了 16B 参数的大模型。测试显示，其在空间编辑的准确性上全面超越现有主流模型，误差降至最低。

谁能从中受益？

电商卖家：无需重新拍摄，一键生成商品的多角度展示图，大幅降低拍摄成本。
平面设计师：精准调整元素位置和视角，告别手动拖拽对齐的繁琐。
影视后期：静态素材快速转换视角，辅助分镜设计和构图调整。
3D 创作者：从单张图片生成多视角视图，加速 3D 建模流程。
普通用户：修图时想把人物移得更居中、把风景照调出更广的视角，现在只需一句话。

图像模型 # SpatialEdit # 图像编辑

文章版权归作者所有，未经允许请勿转载。

图像修复模型BrushNet:使用分解的双分支扩散方法来进行图像内容的恢复和编辑

图像模型 # BrushNet # 图像修复

1年前

01,0260

新型图像生成框架DREAM ENGINE：结合多模态模型和扩散模型，实现复杂文本-图像交错控制的图像生成任务

图像模型 # DREAM ENGINE # 图像生成 # 多模态模型

1年前

03510

谷歌 Gemini 聊天机器人升级图像编辑功能

早报 # Gemini # 图像编辑 # 谷歌

11个月前

02030

基于文本的编辑框架TurboEdit：能够使用极少的几步就能基于文本指令编辑真实图片

新技术 # TurboEdit # 图像编辑 # 编辑框架

2年前

04820

暂无评论

暂无评论...

AI 修图终于“指哪打哪”：SpatialEdit 实现精准空间操控，告别画面扭曲

什么是 SpatialEdit？

它是怎么做到的？

谁能从中受益？

京东发布 JoyAI-Image：集图像理解、文生图及指令引导编辑于一体的统一多模态基础模型

没有更多了...

相关文章

图像修复模型BrushNet:使用分解的双分支扩散方法来进行图像内容的恢复和编辑

新型图像生成框架DREAM ENGINE：结合多模态模型和扩散模型，实现复杂文本-图像交错控制的图像生成任务

谷歌 Gemini 聊天机器人升级图像编辑功能

基于文本的编辑框架TurboEdit：能够使用极少的几步就能基于文本指令编辑真实图片

暂无评论

文章

新面壁智能发布 VoxCPM2：20亿参数、无离散 Tokenizer 的开源语音合成新标杆

2026 年Coding Plan 深度横评：谁才是“养龙虾”的性价比之王？

Kimi 会员计费大升级：告别“按次计数”，迎来“统一额度”时代

ComfyUI 原生支持 Wan2.2 Fun：首尾帧控制与多模态视频生成全面集成

美团开源 5677 亿参数 LongCat-Flash-Prover：专攻数学证明，MiniF2F 通过率高达 97.1%

Arcee 发布 Trinity-Large-Thinking：3990 亿参数“美国制造”开源模型，剑指企业自主 AI

S.H.I.T

Tripo

ITELLOU

waoo

Joker of Academics（小丑学术期刊）

Flova

AI 修图终于“指哪打哪”：SpatialEdit 实现精准空间操控，告别画面扭曲

什么是 SpatialEdit？

它是怎么做到的？

谁能从中受益？

京东发布 JoyAI-Image：集图像理解、文生图及指令引导编辑于一体的统一多模态基础模型

没有更多了...

相关文章

文章

标签云

网址

S.H.I.T

Tripo

ITELLOU

waoo

Joker of Academics（小丑学术期刊 ）

Flova

Joker of Academics（小丑学术期刊）