新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

SocioVerse：用AI模拟千万级社会，探索人类行为的新范式

理解人类个体与群体在社会环境中的行为方式，是社会科学的核心课题之一。然而，传统研究方法如问卷调查、访谈和观察，往往面临样本量有限、成本高昂以及伦理问题等诸多挑战。近年来，随着人工智能技术的快速发展，社...

新技术 # SocioVerse

12个月前

02410

Visual SKETCHPAD 框架：为多模态语言模型提供一个可视化的“草图板”，使其能够在解决问题时生成中间草图并进行推理

华盛顿大学、艾伦人工智能研究所和宾夕法尼亚大学的研究人员推出Visual SKETCHPAD 框架，为多模态语言模型（LMs）提供一个可视化的“草图板”，使其能够在解决问题时生成中间草图并进行推理。这...

新技术 # Visual SKETCHPAD # 多模态语言模型 # 草图板

12个月前

04850

Meta AI 推出高效图像生成新方法Token-Shuffle：在 Transformer 中减少图像 Token

自回归（AR）模型在语言生成领域取得了巨大成功，但在高分辨率图像合成中的应用却面临严峻挑战。与文本不同，图像需要数千个 token 来表示，导致计算成本呈二次方增长。这使得大多数基于 AR 的多模态模...

新技术 # Meta AI # Token-Shuffle # 图像生成

12个月前

03020

微软研究院推出 MMInference：为长上下文视觉-语言模型注入加速动力

随着AI技术的不断进步，视觉-语言模型（VLM）在机器人、自动驾驶、医疗保健等领域的应用日益广泛。然而，将长上下文能力与视觉理解相结合虽然显著提升了 VLM 的潜力，但也带来了新的挑战——尤其是在预填...

新技术 # MMInference # 微软

12个月前

03340

DistanceSampler：基于相对距离的实验性采样器

开发者 Extraltodeus 近日打造了一个基于相对距离的自定义实验性采样器——DistanceSampler。该采样器的设计理念是在开始阶段获得更精确的结果，因为大部分工作都在这个阶段完成。随后...

新技术 # DistanceSampler # 采样器

12个月前

02610

Chipmunk：无需训练的动态稀疏性加速DiT模型的推理过程

扩散模型（Diffusion Models）近年来在图像生成和视频生成领域表现出色，但其计算复杂度也成为了性能瓶颈。特别是基于DiT架构的模型，如FLUX、HunyuanVideo 等，其注意力层和多...

新技术 # Chipmunk # DiT模型 # FLUX

12个月前

04530

新型框架Uni3C：通过3D增强技术实现对视频生成中相机和人体运动的精确控制

阿里达摩院、复旦大学和湖畔实验室的研究人员推出新型框架Uni3C，旨在通过3D增强技术实现对视频生成中相机和人体运动的精确控制。Uni3C通过将相机控制和人体运动控制统一到一个框架中，解决了现有方法中...

新技术 # Uni3C # 人体运动 # 视频生成

12个月前

06520

新型指令式图像编辑框架FireEdit：利用区域感知的视觉语言模型（VLM），实现了对用户指令的细粒度理解和精确图像编辑

中山大学深圳校区、腾讯混元、清华大学和香港科技大学的研究人员推出新型指令式图像编辑框架FireEdit，它通过利用区域感知的视觉语言模型（VLM），实现了对用户指令的细粒度理解和精确图像编辑。Fire...

新技术 # FireEdit # 图像编辑 # 视觉语言模型

1年前

05720

高效的无数据量化方法HIGGS：可快速压缩大语言模型而无需显著牺牲质量

近年来，大语言模型（LLM）的快速发展为AI领域带来了巨大的潜力，但其对计算资源的高需求也限制了广泛应用。无论是研究机构还是个人开发者，都面临着高昂的成本和技术门槛。然而，这一局面可能即将被打破。由...

新技术 # HIGGS # 大语言模型

1年前

02960

字节跳动推出VAPO框架：让大语言模型在复杂推理任务中更高效

字节跳动Seed研究团队发布了一项名为 VAPO 的强化学习训练框架。这一框架专为提升大语言模型（LLM）在复杂、冗长任务中的推理能力而设计，特别是在数学推理和长链推理（Long Chain-of-T...

新技术 # VAPO # 大语言模型 # 字节跳动

1年前

06080

Allen人工智能研究所推出OLMoTrace：让大语言模型透明化，追溯AI决策的真实来源

在企业AI应用中，大语言模型（LLM）的“黑盒”特性一直是阻碍其大规模采用的主要障碍之一。如何理解模型输出的来源、提升透明度并增强信任，成为行业亟需解决的问题。本周，Allen人工智能研究所（Ai2...

新技术 # Ai2 # OLMoTrace # 大语言模型

1年前

03630

动态肖像生成框架FantasyTalking：从单张静态肖像图像生成逼真的、可动画化的动态肖像

阿里巴巴和北京邮电大学的研究人员推出动态肖像生成框架FantasyTalking，从单张静态肖像图像生成逼真的、可动画化的动态肖像，使其能够根据音频信号进行自然的表情、口型和肢体动作的生成。项目主页...

新技术 # FantasyTalking # 动态肖像

12个月前

02990

加载更多

SocioVerse：用AI模拟千万级社会，探索人类行为的新范式

Visual SKETCHPAD 框架：为多模态语言模型提供一个可视化的“草图板”，使其能够在解决问题时生成中间草图并进行推理

Meta AI 推出高效图像生成新方法Token-Shuffle：在 Transformer 中减少图像 Token

微软研究院推出 MMInference：为长上下文视觉-语言模型注入加速动力

DistanceSampler：基于相对距离的实验性采样器

Chipmunk：无需训练的动态稀疏性加速DiT模型的推理过程

新型框架Uni3C：通过3D增强技术实现对视频生成中相机和人体运动的精确控制

新型指令式图像编辑框架FireEdit：利用区域感知的视觉语言模型（VLM），实现了对用户指令的细粒度理解和精确图像编辑

高效的无数据量化方法HIGGS：可快速压缩大语言模型而无需显著牺牲质量

字节跳动推出VAPO框架：让大语言模型在复杂推理任务中更高效

Allen人工智能研究所推出OLMoTrace：让大语言模型透明化，追溯AI决策的真实来源

动态肖像生成框架FantasyTalking：从单张静态肖像图像生成逼真的、可动画化的动态肖像

ITELLOU

S.H.I.T

Tripo

TapNow

BuildCores

Meshy

新技术

网址

ITELLOU

S.H.I.T

Tripo

TapNow

BuildCores

Meshy