宾大与伯克利提出 Vibe Space,让 AI 理解视觉概念的“vibe”

新技术6天前发布 小马良
14 0

当 AI 被要求“融合一个小提琴演奏者和一个吉他演奏者”,它该生成什么?是乐器颜色的平均?演奏姿态的混合?还是创造出一种新型弦乐器演奏者——比如手持鲁特琴、姿势介于两者之间的形象?

传统方法往往停留在像素插值或风格迁移层面,而人类的直觉则关注共享的语义属性:乐器、演奏方式、肢体语言——这种直觉,被宾夕法尼亚大学、纽约市立大学和加州大学伯克利分校的研究者称为 “vibe”(氛围)。

他们提出的 Vibe Space 框架,首次在 CLIP 等视觉特征空间中学习低维测地线(geodesics),使 AI 能沿着“有意义的语义路径”实现概念间的平滑过渡,而非简单线性混合。

宾大与伯克利提出 Vibe Space,让 AI 理解视觉概念的“vibe”

什么是 “Vibe Blending”?

“Vibe” 源自 1960 年代爵士乐俚语,指音乐、人物或场景所传递的整体氛围或感觉。在视觉上下文中,它代表一组跨概念共享的、可迁移的语义属性

Vibe Blending 是一项新任务:给定两张图像,识别其最相关的共享属性(即 “vibe”),并据此生成连贯、合理且富有创意的混合体

例如:

  • 小提琴手 + 吉他手 → 鲁特琴演奏者(保留“弦乐器”+“持琴姿势”)
  • 哥特教堂 + 摩天楼 → 尖顶玻璃塔(融合“垂直感”+“尖拱结构”)
  • 猫 + 战斗机 → 流线型猫形飞行器(提取“敏捷”+“空气动力学外形”)

关键在于:忽略颜色、背景等无关变量,聚焦语义核心

技术实现:Vibe Space 如何工作?

Vibe Space 是一个分层图流形(hierarchical graph manifold),通过以下步骤构建语义路径:

  1. 特征提取
    使用 DINO 提取图像的密集视觉特征,作为图的节点。
  2. 图扩散映射(Graph Diffusion Map)
    基于特征相似性构建图,计算其拉普拉斯矩阵的特征向量,形成低维嵌入——这一步捕捉了数据流形的内在几何结构
  3. Vibe Space 学习
    训练两个轻量级 MLP(编码器 + 解码器):

    • 编码器:将 DINO 特征映射到低维 Vibe Space
    • 解码器:将 Vibe Space 坐标映射回 CLIP 特征空间
  4. 路径生成与渲染
    • 在 Vibe Space 中进行线性插值(实际对应原始空间中的非线性测地线)
    • 通过 IP-Adapter 将特征路径解码为最终图像

核心特性

  • ✅ 语义优先的融合:不依赖像素或风格,而是基于可解释的视觉属性
  • ✅ 多尺度结构保持:通过 Flag Space 同时建模全局构图与局部细节
  • ✅ 负属性控制:用户可指定“不要出现汽车”“避免红色”等排除项,精细调控输出
  • ✅ 多图像扩展:支持三个及以上概念的混合(如“猫 + 飞机 + 潜艇”)

实验结果:人类更喜欢“有 vibe”的混合

研究团队在 Totally Looks Like 数据集及自建建筑风格对上进行了评估:

  • 人类偏好测试:在高难度(语义差异大)图像对上,Vibe Blending 生成的混合体被显著评为更具创意性与连贯性,优于 Gemini、GPT-4V 等基线。
  • 定量指标:在 Attribute-Masked DreamSim(屏蔽属性后的感知相似度)上表现最佳,证明其保留了核心语义。
  • 路径非线性评分(PNS):能自动识别“难以融合”的图像对,为后续研究提供高质量挑战样本。
© 版权声明

相关文章

暂无评论

none
暂无评论...