新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

蚂蚁集团发布针对多跳问答任务的增强型检索-生成（RAG）框架HANRAG

蚂蚁集团发布新型框架HANRAG，这是一个针对多跳问答任务的增强型检索-生成（RAG）框架，通过结合启发式方法和强大的“启示者”（Revelator）主代理，高效处理各种复杂性的问题，提高多跳问答系统...

新技术 # HANRAG # 蚂蚁集团

7个月前

01260

开源机器人学习框架Ark：简化机器人软件开发和部署而设计

达姆施塔特工业大学、华为诺亚方舟、伦敦帝国理工学院、牛津大学和伦敦大学学院的研究人员推出开源机器人学习框架Ark，通过提供一个基于 Python 的、易于使用的环境来加速机器人学习的研究和商业部署。 ...

新技术 # Ark # 机器人学习框架

7个月前

0920

新型强化学习算法框架EMPG：提升了智能体在长时域任务中的性能与稳定性

在复杂任务中，如网页购物、虚拟环境导航或深度信息检索，大语言模型（LLM）作为智能体的表现正日益受到关注。然而，一个长期困扰研究者的难题是：这些任务往往只在最终成功或失败时给出奖励信号——中间成百上千...

新技术 # EMPG # 强化学习算法

7个月前

02020

RewardDance：用生成式奖励重塑视觉强化学习，让AI生成的图像和视频真正“理解”你的需求

在视觉生成领域，强化学习（Reinforcement Learning, RL）正成为提升模型表现的关键手段。其中，奖励模型（Reward Model, RM）作为引导生成方向的核心组件，直接影响最终...

新技术 # RewardDance # 字节跳动

7个月前

01450

Meta FAIR提出 Darling：用强化学习平衡大语言模型生成质量与语义多样性

由 Meta FAIR、卡内基梅隆大学与约翰霍普金斯大学联合提出的新框架 Darling（Diversity-Aware Reinforcement Learning for Generation...

新技术 # Darling # Meta FAIR # 大语言模型

7个月前

02250

清华大学等提出UPGE框架：用统一视角重构大模型后训练

在大语言模型（LLM）的训练流程中，“后训练”（post-training）是连接预训练与实际应用的关键阶段。当前主流方法主要包括两类：监督微调（SFT）和强化学习（RL）。前者依赖高质量演示数据，强...

新技术 # UPGE # 大模型后训练

7个月前

01740

PractiLight：基于基础扩散模型实现实用光照控制，兼顾泛化与效率

在图像生成领域，精准控制光照一直是颇具挑战性的任务 —— 改变场景光照不仅要调整直接光源效果，还需协调反射、阴影、高光等连锁反应，涉及全图像及多频率范围的复杂关系。现有方法多依赖大规模特定领域数据集训...

新技术 # PractiLight # 光照控制

7个月前

02720

TRKT：用关系感知与时序增强提升弱监督场景图生成

在视频理解任务中，如何让机器“看懂”复杂的视觉场景？不仅要知道画面中有哪些对象，还要理解它们之间的互动关系——这正是动态场景图生成（Dynamic Scene Graph Generation, DS...

新技术 # TRKT # 场景图生成

7个月前

01760

RealDevWorld：首个面向 AI 开发的生产级软件工程基准

随着 AI 编程能力的快速演进，越来越多的模型可以“一键生成”完整应用。但一个问题随之而来：我们该如何判断这些 AI 生成的应用，是否真的可用？传统的代码评测方法，如 LeetCode 式的算法题或...

新技术 # RealDevWorld # 软件工程基准

7个月前

01580

腾讯推出 Think in Games (TiG) 框架：通过强化学习结合大语言模型来提升模型在游戏环境中的决策和推理能力

腾讯推出 Think in Games (TiG) 框架，通过强化学习（Reinforcement Learning, RL）结合大语言模型（LLMs）来提升模型在游戏环境中的决策和推理能力。TiG ...

新技术 # Think in Games # 腾讯

7个月前

02470

新型辅助训练目标Token Order Prediction (TOP)：用于改进语言模型中的下一个词预测（NTP）任务

MBZUAI推出新型辅助训练目标Token Order Prediction (TOP)，用于改进语言模型中的下一个词预测（Next-Token Prediction, NTP）任务。TOP 通过预测...

新技术 # TOP # 辅助训练目标

7个月前

01010

字节跳动推出 UltraMemV2：在低内存访问下，追平8专家MoE性能

在大模型稀疏化架构的演进中，效率与性能的权衡始终是核心挑战。 MoE（Mixture of Experts）通过仅激活部分专家实现高效推理，但其频繁的跨专家参数访问带来了高昂的内存开销。为解决这一问题...

新技术 # UltraMemV2 # 字节跳动

7个月前

0900

加载更多

蚂蚁集团发布针对多跳问答任务的增强型检索-生成（RAG）框架HANRAG

开源机器人学习框架Ark：简化机器人软件开发和部署而设计

新型强化学习算法框架EMPG：提升了智能体在长时域任务中的性能与稳定性

RewardDance：用生成式奖励重塑视觉强化学习，让AI生成的图像和视频真正“理解”你的需求

Meta FAIR提出 Darling：用强化学习平衡大语言模型生成质量与语义多样性

清华大学等提出UPGE框架：用统一视角重构大模型后训练

PractiLight：基于基础扩散模型实现实用光照控制，兼顾泛化与效率

TRKT：用关系感知与时序增强提升弱监督场景图生成

RealDevWorld：首个面向 AI 开发的生产级软件工程基准

腾讯推出 Think in Games (TiG) 框架：通过强化学习结合大语言模型来提升模型在游戏环境中的决策和推理能力

新型辅助训练目标Token Order Prediction (TOP)：用于改进语言模型中的下一个词预测（NTP）任务

字节跳动推出 UltraMemV2：在低内存访问下，追平8专家MoE性能

TapNow

S.H.I.T

ITELLOU

waoo

RunningHub

佛津 (FoJin)

新技术

网址

TapNow

S.H.I.T

ITELLOU

waoo

RunningHub

佛津 (FoJin)