Attend Before Attention:伯克利与英伟达联手,让AI像人眼一样“扫视”视频,推理提速19倍在视频理解领域,长久以来存在一个巨大的效率悖论:人类只需扫视关键物体就能理解场景,而AI模型却必须像素级地“硬啃”每一帧。这种对时空冗余数据的无差别处理,导致当前的多模态大语言模型(MLLM)在面对长...多模态模型# Attend Before Attention# AutoGaze5天前0150