新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

大模型 RL 加速新方案：FlashRL 实现无损量化 rollout

在大模型强化学习（RL）训练中，rollout 生成是耗时最长的环节之一。以 DAPO-32B 为例，rollout 阶段占据了约 70% 的总训练时间。这一瓶颈使得整个训练流程效率低下，尤其在大规模...

新技术 # FlashRL

7个月前

04420

加速DiT架构模型的无需训练训练框架Sparse VideoGen（SVG）：可实现2 倍加速和高保真度来加速视频生成

加州大学伯克利分校、麻省理工学院、英伟达和清华大学的研究人员推出一个用于加速DiT架构模型的无需训练训练框架Sparse VideoGen（SVG），通过利用三维全注意力（3D full attent...

1年前

04420

Impossible Videos：通过创建和评估“不可能视频”来挑战和推进视频理解和生成模型的能力

新加坡国立大学的研究人员推出Impossible Videos项目，即“不可能视频”。这项研究旨在通过创建和评估“不可能视频”来挑战和推进视频理解和生成模型的能力。不可能视频是指那些在现实世界中不可能...

新技术 # AI视频 # Impossible Videos # 不可能视频

1年前

04400

强化学习新范式OREAL：基于结果奖励的强化学习（RL）提升大语言模型在数学推理任务中的表现

上海AI实验室、上海交通大学、香港中文大学和InnoHK的研究人员提出基于结果奖励的强化学习新范式OREAL，通过基于结果奖励的强化学习（RL）提升大语言模型（LLMs）在数学推理任务中的表现。该框架...

新技术 # OREAL # 大语言模型 # 强化学习

1年前

04380

Decart 和 Etched 联手打造的全球首个实时 AI 世界模型Oasis：完全由AI实时生成游戏场景

Oasis 是由 Decart 和 Etched 联手打造的全球首个实时 AI 世界模型。这不仅仅是一个游戏，而是一个完全由 AI 实时生成的互动体验。想象一下，一个无需等待加载、始终以 20fps ...

新技术 # AI 世界模型 # Oasis

1年前

04380

最优步长蒸馏（OSS）：通过优化采样步长来加速扩散模型的生成过程，同时保持生成质量

扩散模型是一种强大的生成模型，能够生成高质量的图像、视频等内容。然而，传统的扩散模型在采样过程中需要大量的步骤来逐步去除噪声并生成最终结果，这使得采样过程计算成本高昂。例如，在生成一张高质量的图像时...

新技术 # OSS # 扩散模型 # 最优步长蒸馏

12个月前

04360

如何在保持计算效率的同时，将原始文生图模型的多样性和控制能力转移到高效的蒸馏模型中

美国东北大学的研究人员发布论文《Distilling Diversity and Control in Diffusion Models》，探讨了如何在保持计算效率的同时，将原始扩散模型的多样性和控制...

新技术 # 文生图模型 # 蒸馏模型

1年前

04340

视频生成框架ReCamMaster：能够根据新的相机轨迹重新渲染输入视频的动态场景

浙江大学、快手科技、中国香港中文大学、华中科技大学的研究人员推出一种创新的视频生成框架ReCamMaster，能够根据新的相机轨迹重新渲染输入视频的动态场景。该技术的核心在于通过预训练的文本到视频（t...

新技术 # ReCamMaster # 动态场景 # 视频生成

1年前

04340

micro_diffusion ：一种低成本训练文生图模型的方法

索尼 AI和加州大学河滨分校的研究人员推出了一种低成本训练大规模文本到图像（Text-to-Image, T2I）扩散模型的方法micro_diffusion 。该方法通过创新的“延迟掩码”（defe...

新技术 # micro_diffusion # 文生图模型

1年前

04340

Yo’Chameleon：使大型多模态模型（LMM）实现个性化视觉和语言生成能力

威斯康星大学麦迪逊分校和Adobe Research的研究人员推出新型框架Yo’Chameleon，为大型多模态模型（LMMs）实现个性化视觉和语言生成能力。Yo’Chameleon 通过软提示调...

新技术 # Yo’Chameleon # 多模态模型

11个月前

04330

Chipmunk：无需训练的动态稀疏性加速DiT模型的推理过程

扩散模型（Diffusion Models）近年来在图像生成和视频生成领域表现出色，但其计算复杂度也成为了性能瓶颈。特别是基于DiT架构的模型，如FLUX、HunyuanVideo 等，其注意力层和多...

新技术 # Chipmunk # DiT模型 # FLUX

11个月前

04330

ITACLIP：通过图像、文本和架构增强提升无需训练的语义分割

近年来，基础视觉语言模型（VLMs）的发展彻底改变了计算机视觉领域的研究方向。这些模型，尤其是 CLIP，不仅推动了开放词汇计算机视觉任务的研究，还在多个领域取得了显著成果。然而，尽管 VLMs 在开...

新技术 # ITACLIP # 语义分割

1年前

04310

加载更多

大模型 RL 加速新方案：FlashRL 实现无损量化 rollout

加速DiT架构模型的无需训练训练框架Sparse VideoGen（SVG）：可实现2 倍加速和高保真度来加速视频生成

Impossible Videos：通过创建和评估“不可能视频”来挑战和推进视频理解和生成模型的能力

强化学习新范式OREAL：基于结果奖励的强化学习（RL）提升大语言模型在数学推理任务中的表现

Decart 和 Etched 联手打造的全球首个实时 AI 世界模型Oasis：完全由AI实时生成游戏场景

最优步长蒸馏（OSS）：通过优化采样步长来加速扩散模型的生成过程，同时保持生成质量

如何在保持计算效率的同时，将原始文生图模型的多样性和控制能力转移到高效的蒸馏模型中

视频生成框架ReCamMaster：能够根据新的相机轨迹重新渲染输入视频的动态场景

micro_diffusion ：一种低成本训练文生图模型的方法

Yo’Chameleon：使大型多模态模型（LMM）实现个性化视觉和语言生成能力

Chipmunk：无需训练的动态稀疏性加速DiT模型的推理过程

ITACLIP：通过图像、文本和架构增强提升无需训练的语义分割

新悟空

新OpenMAIC

S.H.I.T

Meshy

CutCut

Joker of Academics（小丑学术期刊）

新技术

网址

新悟空

新OpenMAIC

S.H.I.T

Meshy

CutCut

Joker of Academics（小丑学术期刊 ）

Joker of Academics（小丑学术期刊）