新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

英伟达发布人体运动的通用模型Genmo：实现从视频、2D 关键点、文本描述、音乐和3D 关键帧等多种条件信号中生成和估计高质量的人类运动

英伟达研究团队开发的统一框架 GENMO，用于人类运动建模。GENMO 的目标是将人类运动估计（estimation）和生成（generation）任务整合到一个框架中，从而实现从视频、2D 关键点...

10个月前

02870

基于视觉特征的对抗性引导方法NegToMe：利用参考图像或其他批次图像的视觉特征，而非仅依赖文本提示，来更有效地排除不希望的视觉元素

华盛顿大学、澳大利亚国立大学和艾伦人工智能研究所的研究人员提出了一种新的对抗性引导方法——负标记合并（Negative Token Merging, NegToMe）。该方法旨在通过直接利用参考图像或...

新技术 # NegToMe # 负标记合并

1年前

02870

突破负引导瓶颈：萨里大学提出新型扩散模型控制机制 NAG

萨里大学与 NetMind.AI 的研究人员联合提出了一种名为 Normalized Attention Guidance（NAG）的新技术，解决扩散模型中“负引导”（negative guidan...

新技术 # NAG

9个月前

02860

PERSE：从单张肖像图像创建一个可动的个性化3D生成头像

首尔国立大学的研究人员提出了一种名为PERSE的创新方法，用于从参考肖像构建可动画化、个性化的生成头像，从单张肖像图像创建一个可动的个性化3D生成头像（avatar）。PERSE 的核心优势在于它能够...

新技术 # PERSE

1年前

02860

基于解耦身份和运动的主体驱动视频生成的新方法

首尔国立大学、微软亚洲研究院和浦项科技大学的研究人员推出提出了一种**基于解耦身份和运动的主体驱动视频生成（Subject-driven Video Generation via Disentang...

新技术 # 视频生成

10个月前

02850

GenEx：从单张RGB图像生成一个可探索的3D一致性虚拟环境

理解、导航和探索三维物理现实世界一直是人工智能（AI）领域的一个核心挑战。传统的方法通常依赖于传感器数据（如摄像头、激光雷达等）来构建环境的即时感知，但这限制了代理在未见区域的预测能力和决策效率。为了...

新技术 # GenEx

1年前

02850

针对DiT模型的深度修剪方法TinyFusion：通过端到端学习去除冗余层，以减少模型的参数量和提高推理效率

新加坡国立大学的研究人员推出一个针对DiT模型的深度修剪方法TinyFusion，旨在通过端到端学习去除冗余层，以减少模型的参数量和提高推理效率。DiT架构在图像生成领域展现出了卓越的能力，但通常伴随...

新技术 # DiT模型 # TinyFusion

1年前

02840

Darwin Gödel Machine（DGM）：能够自主修改自身代码的 AI智能体

在AI研究领域，一个长期目标是构建能够“无限学习”的系统——不仅在训练中学习，在部署后也能持续自我演化和提升。这一愿景的核心思想源自哥德尔机器（Gödel Machine），它是一种理论上具备自修改...

新技术 # AI智能体 # Darwin Gödel Machine

10个月前

02830

针对大语言模型（LLMs）的量化感知训练（QAT）的统一缩放定律

香港大学和字节跳动的研究人员介绍了一种针对大语言模型（LLMs）的量化感知训练（QAT）的统一缩放定律。量化是一种减少模型权重和激活精度的方法，以降低内存使用和计算成本。尽管现有的量化方法在中等精度...

新技术 # 大语言模型 # 量化感知训练

10个月前

02830

高效的无数据量化方法HIGGS：可快速压缩大语言模型而无需显著牺牲质量

近年来，大语言模型（LLM）的快速发展为AI领域带来了巨大的潜力，但其对计算资源的高需求也限制了广泛应用。无论是研究机构还是个人开发者，都面临着高昂的成本和技术门槛。然而，这一局面可能即将被打破。由...

新技术 # HIGGS # 大语言模型

11个月前

02830

苹果推出用于文本和图像条件下的视频生成新方法STIV

苹果公司介绍了一个名为STIV（Scalable Text and Image Conditioned Video Generation）的系统，它是一种用于文本和图像条件下的视频生成方法。STIV系...

新技术 # STIV # 苹果

1年前

02830

字节跳动推出基于DiT模型的人类图像动画框架DreamActor-M1：实现整体性、表现力和鲁棒性的人类图像动画生成

字节跳动推出一个基于DiT模型的人类图像动画框架DreamActor-M1，实现整体性（holistic）、表现力（expressive）和鲁棒性（robust）的人类图像动画生成。该框架通过混合引导...

新技术 # DiT模型 # DreamActor-M1 # 字节跳动

12个月前

02820

加载更多

英伟达发布人体运动的通用模型Genmo：实现从视频、2D 关键点、文本描述、音乐和3D 关键帧等多种条件信号中生成和估计高质量的人类运动

基于视觉特征的对抗性引导方法NegToMe：利用参考图像或其他批次图像的视觉特征，而非仅依赖文本提示，来更有效地排除不希望的视觉元素

突破负引导瓶颈：萨里大学提出新型扩散模型控制机制 NAG

PERSE：从单张肖像图像创建一个可动的个性化3D生成头像

基于解耦身份和运动的主体驱动视频生成的新方法

GenEx：从单张RGB图像生成一个可探索的3D一致性虚拟环境

针对DiT模型的深度修剪方法TinyFusion：通过端到端学习去除冗余层，以减少模型的参数量和提高推理效率

Darwin Gödel Machine（DGM）：能够自主修改自身代码的 AI智能体

针对大语言模型（LLMs）的量化感知训练（QAT）的统一缩放定律

高效的无数据量化方法HIGGS：可快速压缩大语言模型而无需显著牺牲质量

苹果推出用于文本和图像条件下的视频生成新方法STIV

字节跳动推出基于DiT模型的人类图像动画框架DreamActor-M1：实现整体性、表现力和鲁棒性的人类图像动画生成

OpenMAIC

新悟空

S.H.I.T

Meshy

Joker of Academics（小丑学术期刊）

CutCut

新技术

网址

OpenMAIC

新悟空

S.H.I.T

Meshy

Joker of Academics（小丑学术期刊 ）

CutCut

Joker of Academics（小丑学术期刊）