混合递归(MoR):用“动态思考”提升大模型推理效率在大模型追求极致规模的浪潮中,一种新的架构正试图从“智能调度”而非“堆叠参数”的角度,重新定义效率。 由 KAIST AI 与 Mila 联合提出的新框架——混合递归(Mixture-of-Recur...新技术# MoR# 混合递归6个月前0930
Snap Research 推出 Zero-Shot Dynamic Concept:无需微调,即可实现视频级动态个性化Snap Research 发布了一项名为 Zero-Shot Dynamic Concept 的新方法,为文本到视频生成模型中的动态概念个性化提供了全新的解决方案。该技术基于网格化 LoRA 架构...新技术# Snap Research# Zero-Shot Dynamic Concept6个月前01070
首尔大学研究团队提出推理加速框架 RALU:无需训练的混合分辨率采样,加速DIT架构模型推理最高达7倍DIT架构模型凭借其卓越的可扩展性,正逐步取代传统的 U-Net 架构,成为高保真图像与视频生成的主流模型。然而,其高昂的计算成本严重制约了在移动端、实时应用和大规模部署中的实用性。 为解决这一瓶颈...新技术# DiT架构模型# RALU# 首尔大学6个月前01050
索尼与韩国科学技术院联合推出 DesignLab:一种全新的AI驱动幻灯片优化框架对大多数人而言,制作一份美观、专业、信息清晰的演示文稿是一项令人头疼的任务。 排版混乱、配色突兀、字体不协调——这些问题并非源于内容不足,而是设计决策的复杂性超出了非专业人士的能力范围。 尽管已有不少...新技术# DesignLab# PPT6个月前02440
Gemini 2.5 实现对话式图像分割,用语言精准“圈出”图像中的目标AI在视觉理解领域正不断突破边界。从最初的物体检测,到像素级语义分割,再到开放词汇识别,AI 对图像的理解能力持续进化。如今,谷歌 Gemini 2.5 带来了一个更具交互性的能力——对话式图像分割...新技术# Gemini 2.5# 图像分割6个月前02410
CSD-VAR:从一张图中分离内容与风格的新方法高通AI研究和MovianAI的研究人员推出新方法CSD-VAR,用于从单张图像中分离内容(content)和风格(style),即内容风格分解(Content-Style Decomposition...新技术# CSD-VAR6个月前01730
一种更接近人类思维的推理模型架构HRM在AI领域,“推理”始终是衡量智能水平的核心指标。真正的推理,不只是回答问题,而是设计并执行通向目标的复杂行动序列——就像人在解一道数独时,会先观察整体格局,再逐步填入数字;在走迷宫时,会先判断大致方...新技术# HRM# 推理模型架构6个月前02230
自回归生成多视图图像方法 MVAR:从人类指令(如文本、参考图像和几何形状)生成多视角一致的图像北京大学医学技术研究所、百度视觉、北京大学未来技术学院生物医学工程系、北京大学国家生物医学影像中心和清华大学的研究人员开发了一种自回归生成多视图图像的方法 MVAR 。其目的是确保在生成当前视图的过程...新技术# MVAR# 多视图6个月前01480
CanonSwap:通过规范空间调制实现高保真且一致的视频人脸交换在AI与计算机视觉领域,视频人脸交换(Video Face Swapping)是一项极具挑战性的任务。它不仅要将一个人的身份特征“移植”到另一段视频中,还要保持目标人物的表情、动作和口型等动态信息不变...新技术# CanonSwap# 视频换脸6个月前01830
LoongX:基于多模态神经信号驱动的无接触图像编辑新范式由新加坡国立大学、浙江大学、罗切斯特理工学院、南京大学、中国科学技术大学、曼苏里大学人工智能学院、上海人工智能实验室和SII联合提出的新方法 LoongX,首次将多模态脑机接口(BCI)信号引入扩散模...新技术# LoongX# 图像编辑6个月前02440
AI2推出一种全新的语言模型协作训练范式FlexOlmo由 AI2(Allen Institute for AI) 推出的 FlexOlmo,正在重新定义语言模型的训练方式。 它提出了一种名为“数据协作”的新范式,让多个数据拥有者在不共享原始数据的前提下...新技术# Ai2# FlexOlmo6个月前02820
Video-RTS:一种高效视频推理框架,用强化学习+动态推理策略打破数据依赖北卡罗来纳大学教堂山分校的研究人员提出了一种全新的视频推理方法——Video-RTS(Reinforcement Learning with Test-time Scaling),旨在解决当前视频理解...新技术# Video-RTS# 视频推理框架6个月前01430