字节跳动推出VAPO框架:让大语言模型在复杂推理任务中更高效字节跳动Seed研究团队发布了一项名为 VAPO 的强化学习训练框架。这一框架专为提升大语言模型(LLM)在复杂、冗长任务中的推理能力而设计,特别是在数学推理和长链推理(Long Chain-of-T...新技术# VAPO# 大语言模型# 字节跳动8个月前04010
Allen人工智能研究所推出OLMoTrace:让大语言模型透明化,追溯AI决策的真实来源在企业AI应用中,大语言模型(LLM)的“黑盒”特性一直是阻碍其大规模采用的主要障碍之一。如何理解模型输出的来源、提升透明度并增强信任,成为行业亟需解决的问题。本周,Allen人工智能研究所(Ai2...新技术# Ai2# OLMoTrace# 大语言模型8个月前03310
动态肖像生成框架FantasyTalking:从单张静态肖像图像生成逼真的、可动画化的动态肖像阿里巴巴和北京邮电大学的研究人员推出动态肖像生成框架FantasyTalking,从单张静态肖像图像生成逼真的、可动画化的动态肖像,使其能够根据音频信号进行自然的表情、口型和肢体动作的生成。 项目主页...新技术# FantasyTalking# 动态肖像8个月前02750
TTT-Video:通过引入 Test-Time Training(TTT)层,成功让DiT 模型能够从文本故事板生成长达一分钟的视频英伟达联合斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究人员,通过引入 Test-Time Training(TTT)层,成功让预训练的 DiT 模型能够从文本故事...新技术# CogVideoX-5B# DiT 模型# TTT-Video8个月前04590
新型实时文本驱动的说话头像生成框架OmniTalker :在零样本场景下同时生成同步的语音和说话头像视频,同时保留语音风格和面部风格阿里通义实验室推出新型实时文本驱动的说话头像生成框架OmniTalker ,能够在零样本(zero-shot)场景下同时生成同步的语音和说话头像视频,同时保留语音风格和面部风格。OmniTalker ...新技术# OmniTalker# 通义实验室8个月前04580
新型通用且一致的单目人类重光照和协调模型 Comprehensive Relighting :能够从单张图像或视频中控制和协调任意身体部位的人类的光照属性,并使其与背景场景(即背景图像)自然融合南加州大学、Adobe 研究院、Runway的研究人员推出新型通用且一致的单目人类重光照(relighting)和协调(harmonization)模型 Comprehensive Relightin...新技术8个月前02500
PhysGen3D:从一张图片创造真实物理世界的交互式3D场景清华大学、伊利诺伊大学厄巴纳香槟分校和哥伦比亚大学的研究人员携手推出了一项创新成果—PhysGen3D,将单一图像转化为非模态、以相机为中心的交互式 3D 场景。 项目主页:https://by-lu...新技术# 3D场景# PhysGen3D8个月前03870
FreSca:用于增强扩散模型在图像编辑和图像理解任务中的性能罗切斯特大学、Netflix Eyeline Studios和德克萨斯大学达拉斯分校的研究人员推出 FreSca,用于增强扩散模型(Diffusion Models)在图像编辑和图像理解任务中的性能...新技术# FreSca# 图像理解# 图像编辑8个月前02890
通过推理计算来提高通用奖励建模(RM)的推理时间可扩展性强化学习(RL)在大语言模型(LLM)的后续训练中已被广泛应用,尤其是在提升模型的推理能力方面。然而,如何在各种领域中为LLM获得准确的奖励信号,仍然是一个关键挑战。 论文:https://arxiv...新技术# DeepSeek# 奖励建模# 清华大学8个月前02960
Anthropic发布AI安全性研究:链式推理(CoT)的忠实度评估Anthropic最近发布了一篇关于推理模型的链式推理(CoT)忠实度的研究论文。这项研究深入探讨了CoT在AI安全中的应用,尤其是其在监控模型意图和推理过程中的有效性。 研究背景 CoT的重要性 链...新技术# Anthropic# CoT# 思维链8个月前02990
首个针对 GPT-4o 图像生成能力进行定量和定性评估的基准测试GPT-ImgEval北京大学深圳研究生院、中山大学、Rabbitpre AI、上海人工智能实验室、深圳大学和香港科技大学(广州)的研究人员发布首个针对 GPT-4o 图像生成能力进行定量和定性评估的基准测试GPT-Img...新技术# GPT-4o# GPT-ImgEval8个月前05360
Any2Caption:通过将多样化的输入条件(如文本、图像、视频、人体姿态、相机运动等)转化为结构化的详细字幕,从而实现可控的视频生成快手和新加坡国立大学的研究人员推出新型框架 Any2Caption ,通过将多样化的输入条件(如文本、图像、视频、人体姿态、相机运动等)转化为结构化的详细字幕,从而实现可控的视频生成。这一框架的核心思...新技术# Any2Caption# 视频生成9个月前02730