开源机器人学习框架Ark:简化机器人软件开发和部署而设计达姆施塔特工业大学、华为诺亚方舟、伦敦帝国理工学院、牛津大学和伦敦大学学院的研究人员推出开源机器人学习框架Ark,通过提供一个基于 Python 的、易于使用的环境来加速机器人学习的研究和商业部署。 ...新技术# Ark# 机器人学习框架5个月前0680
新型强化学习算法框架EMPG:提升了智能体在长时域任务中的性能与稳定性在复杂任务中,如网页购物、虚拟环境导航或深度信息检索,大语言模型(LLM)作为智能体的表现正日益受到关注。然而,一个长期困扰研究者的难题是:这些任务往往只在最终成功或失败时给出奖励信号——中间成百上千...新技术# EMPG# 强化学习算法5个月前01860
RewardDance:用生成式奖励重塑视觉强化学习,让AI生成的图像和视频真正“理解”你的需求在视觉生成领域,强化学习(Reinforcement Learning, RL)正成为提升模型表现的关键手段。其中,奖励模型(Reward Model, RM)作为引导生成方向的核心组件,直接影响最终...新技术# RewardDance# 字节跳动5个月前01290
Meta FAIR提出 Darling:用强化学习平衡大语言模型生成质量与语义多样性由 Meta FAIR、卡内基梅隆大学与约翰霍普金斯大学联合提出的新框架 Darling(Diversity-Aware Reinforcement Learning for Generation...新技术# Darling# Meta FAIR# 大语言模型5个月前01930
清华大学等提出UPGE框架:用统一视角重构大模型后训练在大语言模型(LLM)的训练流程中,“后训练”(post-training)是连接预训练与实际应用的关键阶段。当前主流方法主要包括两类:监督微调(SFT)和强化学习(RL)。前者依赖高质量演示数据,强...新技术# UPGE# 大模型后训练6个月前01550
PractiLight:基于基础扩散模型实现实用光照控制,兼顾泛化与效率在图像生成领域,精准控制光照一直是颇具挑战性的任务 —— 改变场景光照不仅要调整直接光源效果,还需协调反射、阴影、高光等连锁反应,涉及全图像及多频率范围的复杂关系。现有方法多依赖大规模特定领域数据集训...新技术# PractiLight# 光照控制6个月前02140
TRKT:用关系感知与时序增强提升弱监督场景图生成在视频理解任务中,如何让机器“看懂”复杂的视觉场景?不仅要知道画面中有哪些对象,还要理解它们之间的互动关系——这正是动态场景图生成(Dynamic Scene Graph Generation, DS...新技术# TRKT# 场景图生成6个月前01550
RealDevWorld:首个面向 AI 开发的生产级软件工程基准随着 AI 编程能力的快速演进,越来越多的模型可以“一键生成”完整应用。但一个问题随之而来:我们该如何判断这些 AI 生成的应用,是否真的可用? 传统的代码评测方法,如 LeetCode 式的算法题或...新技术# RealDevWorld# 软件工程基准6个月前01410
腾讯推出 Think in Games (TiG) 框架:通过强化学习结合大语言模型来提升模型在游戏环境中的决策和推理能力腾讯推出 Think in Games (TiG) 框架,通过强化学习(Reinforcement Learning, RL)结合大语言模型(LLMs)来提升模型在游戏环境中的决策和推理能力。TiG ...新技术# Think in Games# 腾讯6个月前02150
新型辅助训练目标Token Order Prediction (TOP):用于改进语言模型中的下一个词预测(NTP)任务MBZUAI推出新型辅助训练目标Token Order Prediction (TOP),用于改进语言模型中的下一个词预测(Next-Token Prediction, NTP)任务。TOP 通过预测...新技术# TOP# 辅助训练目标6个月前0920
字节跳动推出 UltraMemV2:在低内存访问下,追平8专家MoE性能在大模型稀疏化架构的演进中,效率与性能的权衡始终是核心挑战。 MoE(Mixture of Experts)通过仅激活部分专家实现高效推理,但其频繁的跨专家参数访问带来了高昂的内存开销。为解决这一问题...新技术# UltraMemV2# 字节跳动6个月前0870
Beyond Memorization:通过不同的架构和训练方法来提升大语言模型多步推理能力阿联酋MBZUAI、莫斯科物理技术学院、莫斯科AIRI和伦敦数学科学研究所的研究人员推出Beyond Memorization,通过不同的架构和训练方法来提升大语言模型(LLMs)多步推理能力。作者们...新技术# Beyond Memorization# 大语言模型6个月前0930