大模型 RL 加速新方案:FlashRL 实现无损量化 rollout在大模型强化学习(RL)训练中,rollout 生成是耗时最长的环节之一。以 DAPO-32B 为例,rollout 阶段占据了约 70% 的总训练时间。这一瓶颈使得整个训练流程效率低下,尤其在大规模...新技术# FlashRL7个月前04420
加速DiT架构模型的无需训练训练框架Sparse VideoGen(SVG):可实现2 倍加速和高保真度来加速视频生成加州大学伯克利分校、麻省理工学院、英伟达和清华大学的研究人员推出一个用于加速DiT架构模型的无需训练训练框架Sparse VideoGen(SVG),通过利用三维全注意力(3D full attent...新技术# Sparse VideoGen# SVG# 加速1年前04420
Impossible Videos:通过创建和评估“不可能视频”来挑战和推进视频理解和生成模型的能力新加坡国立大学的研究人员推出Impossible Videos项目,即“不可能视频”。这项研究旨在通过创建和评估“不可能视频”来挑战和推进视频理解和生成模型的能力。不可能视频是指那些在现实世界中不可能...新技术# AI视频# Impossible Videos# 不可能视频1年前04400
强化学习新范式OREAL:基于结果奖励的强化学习(RL)提升大语言模型在数学推理任务中的表现上海AI实验室、上海交通大学、香港中文大学和InnoHK的研究人员提出基于结果奖励的强化学习新范式OREAL,通过基于结果奖励的强化学习(RL)提升大语言模型(LLMs)在数学推理任务中的表现。该框架...新技术# OREAL# 大语言模型# 强化学习1年前04380
Decart 和 Etched 联手打造的全球首个实时 AI 世界模型Oasis:完全由AI实时生成游戏场景Oasis 是由 Decart 和 Etched 联手打造的全球首个实时 AI 世界模型。这不仅仅是一个游戏,而是一个完全由 AI 实时生成的互动体验。想象一下,一个无需等待加载、始终以 20fps ...新技术# AI 世界模型# Oasis1年前04380
最优步长蒸馏(OSS):通过优化采样步长来加速扩散模型的生成过程,同时保持生成质量扩散模型是一种强大的生成模型,能够生成高质量的图像、视频等内容。然而,传统的扩散模型在采样过程中需要大量的步骤来逐步去除噪声并生成最终结果,这使得采样过程计算成本高昂。例如,在生成一张高质量的图像时...新技术# OSS# 扩散模型# 最优步长蒸馏12个月前04360
如何在保持计算效率的同时,将原始文生图模型的多样性和控制能力转移到高效的蒸馏模型中美国东北大学的研究人员发布论文《Distilling Diversity and Control in Diffusion Models》,探讨了如何在保持计算效率的同时,将原始扩散模型的多样性和控制...新技术# 文生图模型# 蒸馏模型1年前04340
视频生成框架ReCamMaster:能够根据新的相机轨迹重新渲染输入视频的动态场景浙江大学、快手科技、中国香港中文大学、华中科技大学的研究人员推出一种创新的视频生成框架ReCamMaster,能够根据新的相机轨迹重新渲染输入视频的动态场景。该技术的核心在于通过预训练的文本到视频(t...新技术# ReCamMaster# 动态场景# 视频生成1年前04340
micro_diffusion :一种低成本训练文生图模型的方法索尼 AI和加州大学河滨分校的研究人员推出了一种低成本训练大规模文本到图像(Text-to-Image, T2I)扩散模型的方法micro_diffusion 。该方法通过创新的“延迟掩码”(defe...新技术# micro_diffusion# 文生图模型1年前04340
Yo’Chameleon:使大型多模态模型(LMM)实现个性化视觉和语言生成能力威斯康星大学麦迪逊分校和Adobe Research的研究人员推出新型框架Yo’Chameleon,为大型多模态模型(LMMs)实现个性化视觉和语言生成能力。Yo’Chameleon 通过软提示调...新技术# Yo’Chameleon# 多模态模型11个月前04330
Chipmunk:无需训练的动态稀疏性加速DiT模型的推理过程扩散模型(Diffusion Models)近年来在图像生成和视频生成领域表现出色,但其计算复杂度也成为了性能瓶颈。特别是基于DiT架构的模型,如FLUX、HunyuanVideo 等,其注意力层和多...新技术# Chipmunk# DiT模型# FLUX11个月前04330
ITACLIP:通过图像、文本和架构增强提升无需训练的语义分割近年来,基础视觉语言模型(VLMs)的发展彻底改变了计算机视觉领域的研究方向。这些模型,尤其是 CLIP,不仅推动了开放词汇计算机视觉任务的研究,还在多个领域取得了显著成果。然而,尽管 VLMs 在开...新技术# ITACLIP# 语义分割1年前04310