新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

Chipmunk：无需训练的动态稀疏性加速DiT模型的推理过程

扩散模型（Diffusion Models）近年来在图像生成和视频生成领域表现出色，但其计算复杂度也成为了性能瓶颈。特别是基于DiT架构的模型，如FLUX、HunyuanVideo 等，其注意力层和多...

9个月前

03640

新型框架Uni3C：通过3D增强技术实现对视频生成中相机和人体运动的精确控制

阿里达摩院、复旦大学和湖畔实验室的研究人员推出新型框架Uni3C，旨在通过3D增强技术实现对视频生成中相机和人体运动的精确控制。Uni3C通过将相机控制和人体运动控制统一到一个框架中，解决了现有方法中...

新技术 # Uni3C # 人体运动 # 视频生成

9个月前

05390

新型指令式图像编辑框架FireEdit：利用区域感知的视觉语言模型（VLM），实现了对用户指令的细粒度理解和精确图像编辑

中山大学深圳校区、腾讯混元、清华大学和香港科技大学的研究人员推出新型指令式图像编辑框架FireEdit，它通过利用区域感知的视觉语言模型（VLM），实现了对用户指令的细粒度理解和精确图像编辑。Fire...

新技术 # FireEdit # 图像编辑 # 视觉语言模型

10个月前

04780

高效的无数据量化方法HIGGS：可快速压缩大语言模型而无需显著牺牲质量

近年来，大语言模型（LLM）的快速发展为AI领域带来了巨大的潜力，但其对计算资源的高需求也限制了广泛应用。无论是研究机构还是个人开发者，都面临着高昂的成本和技术门槛。然而，这一局面可能即将被打破。由...

新技术 # HIGGS # 大语言模型

10个月前

02700

字节跳动推出VAPO框架：让大语言模型在复杂推理任务中更高效

字节跳动Seed研究团队发布了一项名为 VAPO 的强化学习训练框架。这一框架专为提升大语言模型（LLM）在复杂、冗长任务中的推理能力而设计，特别是在数学推理和长链推理（Long Chain-of-T...

新技术 # VAPO # 大语言模型 # 字节跳动

10个月前

04800

Allen人工智能研究所推出OLMoTrace：让大语言模型透明化，追溯AI决策的真实来源

在企业AI应用中，大语言模型（LLM）的“黑盒”特性一直是阻碍其大规模采用的主要障碍之一。如何理解模型输出的来源、提升透明度并增强信任，成为行业亟需解决的问题。本周，Allen人工智能研究所（Ai2...

新技术 # Ai2 # OLMoTrace # 大语言模型

10个月前

03410

动态肖像生成框架FantasyTalking：从单张静态肖像图像生成逼真的、可动画化的动态肖像

阿里巴巴和北京邮电大学的研究人员推出动态肖像生成框架FantasyTalking，从单张静态肖像图像生成逼真的、可动画化的动态肖像，使其能够根据音频信号进行自然的表情、口型和肢体动作的生成。项目主页...

新技术 # FantasyTalking # 动态肖像

9个月前

02880

TTT-Video：通过引入 Test-Time Training（TTT）层，成功让DiT 模型能够从文本故事板生成长达一分钟的视频

英伟达联合斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究人员，通过引入 Test-Time Training（TTT）层，成功让预训练的 DiT 模型能够从文本故事...

新技术 # CogVideoX-5B # DiT 模型 # TTT-Video

10个月前

05370

新型实时文本驱动的说话头像生成框架OmniTalker ：在零样本场景下同时生成同步的语音和说话头像视频，同时保留语音风格和面部风格

阿里通义实验室推出新型实时文本驱动的说话头像生成框架OmniTalker ，能够在零样本（zero-shot）场景下同时生成同步的语音和说话头像视频，同时保留语音风格和面部风格。OmniTalker ...

新技术 # OmniTalker # 通义实验室

10个月前

05390

新型通用且一致的单目人类重光照和协调模型 Comprehensive Relighting ：能够从单张图像或视频中控制和协调任意身体部位的人类的光照属性，并使其与背景场景（即背景图像）自然融合

南加州大学、Adobe 研究院、Runway的研究人员推出新型通用且一致的单目人类重光照（relighting）和协调（harmonization）模型 Comprehensive Relightin...

新技术

10个月前

02520

PhysGen3D：从一张图片创造真实物理世界的交互式3D场景

清华大学、伊利诺伊大学厄巴纳香槟分校和哥伦比亚大学的研究人员携手推出了一项创新成果—PhysGen3D，将单一图像转化为非模态、以相机为中心的交互式 3D 场景。项目主页：https://by-lu...

新技术 # 3D场景 # PhysGen3D

10个月前

04620

FreSca：用于增强扩散模型在图像编辑和图像理解任务中的性能

罗切斯特大学、Netflix Eyeline Studios和德克萨斯大学达拉斯分校的研究人员推出 FreSca，用于增强扩散模型（Diffusion Models）在图像编辑和图像理解任务中的性能...

新技术 # FreSca # 图像理解 # 图像编辑

10个月前

03010

加载更多

Chipmunk：无需训练的动态稀疏性加速DiT模型的推理过程

新型框架Uni3C：通过3D增强技术实现对视频生成中相机和人体运动的精确控制

新型指令式图像编辑框架FireEdit：利用区域感知的视觉语言模型（VLM），实现了对用户指令的细粒度理解和精确图像编辑

高效的无数据量化方法HIGGS：可快速压缩大语言模型而无需显著牺牲质量

字节跳动推出VAPO框架：让大语言模型在复杂推理任务中更高效

Allen人工智能研究所推出OLMoTrace：让大语言模型透明化，追溯AI决策的真实来源

动态肖像生成框架FantasyTalking：从单张静态肖像图像生成逼真的、可动画化的动态肖像

TTT-Video：通过引入 Test-Time Training（TTT）层，成功让DiT 模型能够从文本故事板生成长达一分钟的视频

新型实时文本驱动的说话头像生成框架OmniTalker ：在零样本场景下同时生成同步的语音和说话头像视频，同时保留语音风格和面部风格

新型通用且一致的单目人类重光照和协调模型 Comprehensive Relighting ：能够从单张图像或视频中控制和协调任意身体部位的人类的光照属性，并使其与背景场景（即背景图像）自然融合

PhysGen3D：从一张图片创造真实物理世界的交互式3D场景

FreSca：用于增强扩散模型在图像编辑和图像理解任务中的性能

新QoderWork

Clawdbot/Moltbot

Situation Monitor

Skills.sh

中国科技云数据胶囊

Fogsight (雾象)

新技术

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

Skills.sh

中国科技云数据胶囊

Fogsight (雾象)