阿里通义实验室推出基于浏览器的自主信息检索智能体WebDancer:像人类一样在复杂的网络环境中进行多步骤的信息搜索和推理阿里通义实验室推出基于浏览器的自主信息检索智能体WebDancer,它能够像人类一样在复杂的网络环境中进行多步骤的信息搜索和推理。WebDancer通过模仿人类浏览网页的行为,利用搜索和点击等工具,逐...新技术# WebDancer# 检索智能体# 阿里通义实验室6个月前02170
新型图像到视频生成技术 Frame In-N-Out:突破传统视频生成中帧边界限制,实现更自由、更具创意的视频生成效果弗吉尼亚大学和Adobe Research的研究人员推出新型图像到视频生成技术 Frame In-N-Out,突破传统视频生成中帧边界限制,实现更自由、更具创意的视频生成效果。具体来说,Frame I...新技术# Frame In-N-Out# 图生视频6个月前02630
基于Wan2.1模型的分布式推理策略 DualParal:用于高效生成极端长视频新加坡国立大学、西安电子科技大学和华中科技大学的研究人员推出分布式推理策略 DualParal,用于高效生成极端长视频。该策略针对基于DiT架构模型(Wan2.1mox ),这些模型在生成高质量视频方...新技术# DualParal# Wan2.1模型# 分布式推理策略6个月前02590
韩国科学技术院提出超分辨率框架Chain-of-Zoom(CoZ):突破单图像超分辨率模型的放大极限近年来,单图像超分辨率(SISR) 模型在固定缩放因子下已经能够生成接近真实照片质量的图像。然而,一旦尝试超出训练范围进行放大,就会出现模糊、伪影等问题,严重影响视觉效果。 此外,如果想获得更高倍数的...新技术# Chain-of-Zoom# CoZ# 超分辨率6个月前05350
原生FP4训练框架 Quartet:通过在低精度( FP4)下进行高效的端到端训练,显著提升大语言模型(LLMs)的训练效率和性能ISTA和苏黎世联邦理工学院的研究人员推出原生FP4训练框架 Quartet,通过在低精度( FP4)下进行高效的端到端训练,显著提升大语言模型(LLMs)的训练效率和性能,二之前DeepSeek R...新技术# FP4训练框架# Quartet7个月前02680
新型测试时扩展框架Evolutionary Search (EvoSearch) :通过在推理阶段分配额外计算资源来提升图像和视频生成模型的性能香港科技大学和快手的研究人员推出新型测试时扩展(Test-Time Scaling, TTS)框架Evolutionary Search (EvoSearch) ,通过在推理阶段分配额外计算资源来提升...新技术# Evolutionary Search# EvoSearch7个月前02580
基于 ComfyUI 平台构建的协作式 AI 系统ComfyMind:打造稳定、灵活、可扩展的通用生成平台随着生成模型的飞速发展,“通用生成(General-Purpose Generation)”正成为 AI 领域的新焦点。它旨在通过一个统一系统,支持图像、视频、文本等多种模态任务的生成与编辑,为复杂创...新技术# ComfyMind# 图像生成# 视频生成7个月前02850
纯视觉推理新范式Visual Planning:通过纯视觉表征进行规划,无需依赖文本剑桥大学语言技术实验室、伦敦大学学院和谷歌的研究人员一种名为“Visual Planning(视觉规划)”的新范式,通过纯视觉表征进行规划,无需依赖文本。该范式受到认知科学中双重编码理论的启发,主张人...新技术# Visual Planning# 视觉推理7个月前02160
UniVG-R1:通过推理引导的多模态大语言模型实现通用视觉定位传统视觉定位方法主要关注单图像场景,依赖于简单文本引用。然而,在现实世界中,处理隐含和复杂的指令,尤其是在涉及多图像的情况下,是一个重大挑战,主要原因是缺乏跨多模态上下文的高级推理能力。 项目主页:h...新技术# UniVG-R1# 多模态大语言模型# 视觉定位7个月前02120
Vid2World:将预训练的视频扩散模型转化为交互式世界模型清华大学软件学院、清华大学交叉信息研究所和重庆大学计算机学院的研究人员推出 Vid2World,将预训练的视频扩散模型(Video Diffusion Models)转化为交互式世界模型(Intera...新技术# Vid2World# 交互式世界模型# 视频扩散模型7个月前02770
针对大语言模型(LLMs)的量化感知训练(QAT)的统一缩放定律香港大学和字节跳动的研究人员介绍了一种针对大语言模型(LLMs)的量化感知训练(QAT)的统一缩放定律。量化是一种减少模型权重和激活精度的方法,以降低内存使用和计算成本。尽管现有的量化方法在中等精度...新技术# 大语言模型# 量化感知训练7个月前02340
3DTown框架:从单张俯视图像生成逼真且连贯的三维(3D)场景加州大学圣克鲁兹分校、哥伦比亚大学和Cybever AI的研究人员推出 3DTown框架,从单张俯视图像生成逼真且连贯的三维(3D)场景。传统的详细3D场景获取方法通常需要昂贵的设备、多视角数据或人工...新技术# 3DTown# 3D场景7个月前01840