新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

新型强化学习算法框架EMPG：提升了智能体在长时域任务中的性能与稳定性

在复杂任务中，如网页购物、虚拟环境导航或深度信息检索，大语言模型（LLM）作为智能体的表现正日益受到关注。然而，一个长期困扰研究者的难题是：这些任务往往只在最终成功或失败时给出奖励信号——中间成百上千...

新技术 # EMPG # 强化学习算法

6个月前

01900

RewardDance：用生成式奖励重塑视觉强化学习，让AI生成的图像和视频真正“理解”你的需求

在视觉生成领域，强化学习（Reinforcement Learning, RL）正成为提升模型表现的关键手段。其中，奖励模型（Reward Model, RM）作为引导生成方向的核心组件，直接影响最终...

新技术 # RewardDance # 字节跳动

6个月前

01380

Meta FAIR提出 Darling：用强化学习平衡大语言模型生成质量与语义多样性

由 Meta FAIR、卡内基梅隆大学与约翰霍普金斯大学联合提出的新框架 Darling（Diversity-Aware Reinforcement Learning for Generation...

新技术 # Darling # Meta FAIR # 大语言模型

6个月前

02110

清华大学等提出UPGE框架：用统一视角重构大模型后训练

在大语言模型（LLM）的训练流程中，“后训练”（post-training）是连接预训练与实际应用的关键阶段。当前主流方法主要包括两类：监督微调（SFT）和强化学习（RL）。前者依赖高质量演示数据，强...

新技术 # UPGE # 大模型后训练

6个月前

01660

PractiLight：基于基础扩散模型实现实用光照控制，兼顾泛化与效率

在图像生成领域，精准控制光照一直是颇具挑战性的任务 —— 改变场景光照不仅要调整直接光源效果，还需协调反射、阴影、高光等连锁反应，涉及全图像及多频率范围的复杂关系。现有方法多依赖大规模特定领域数据集训...

新技术 # PractiLight # 光照控制

6个月前

02490

TRKT：用关系感知与时序增强提升弱监督场景图生成

在视频理解任务中，如何让机器“看懂”复杂的视觉场景？不仅要知道画面中有哪些对象，还要理解它们之间的互动关系——这正是动态场景图生成（Dynamic Scene Graph Generation, DS...

新技术 # TRKT # 场景图生成

6个月前

01620

RealDevWorld：首个面向 AI 开发的生产级软件工程基准

随着 AI 编程能力的快速演进，越来越多的模型可以“一键生成”完整应用。但一个问题随之而来：我们该如何判断这些 AI 生成的应用，是否真的可用？传统的代码评测方法，如 LeetCode 式的算法题或...

新技术 # RealDevWorld # 软件工程基准

6个月前

01510

腾讯推出 Think in Games (TiG) 框架：通过强化学习结合大语言模型来提升模型在游戏环境中的决策和推理能力

腾讯推出 Think in Games (TiG) 框架，通过强化学习（Reinforcement Learning, RL）结合大语言模型（LLMs）来提升模型在游戏环境中的决策和推理能力。TiG ...

新技术 # Think in Games # 腾讯

7个月前

02310

新型辅助训练目标Token Order Prediction (TOP)：用于改进语言模型中的下一个词预测（NTP）任务

MBZUAI推出新型辅助训练目标Token Order Prediction (TOP)，用于改进语言模型中的下一个词预测（Next-Token Prediction, NTP）任务。TOP 通过预测...

新技术 # TOP # 辅助训练目标

7个月前

01000

字节跳动推出 UltraMemV2：在低内存访问下，追平8专家MoE性能

在大模型稀疏化架构的演进中，效率与性能的权衡始终是核心挑战。 MoE（Mixture of Experts）通过仅激活部分专家实现高效推理，但其频繁的跨专家参数访问带来了高昂的内存开销。为解决这一问题...

新技术 # UltraMemV2 # 字节跳动

7个月前

0880

Beyond Memorization：通过不同的架构和训练方法来提升大语言模型多步推理能力

阿联酋MBZUAI、莫斯科物理技术学院、莫斯科AIRI和伦敦数学科学研究所的研究人员推出Beyond Memorization，通过不同的架构和训练方法来提升大语言模型（LLMs）多步推理能力。作者们...

新技术 # Beyond Memorization # 大语言模型

7个月前

0950

应对 95% AI 试点失败！Salesforce 发布 CRMArena-Pro，模拟真实业务环境

企业AI的一大痛点是“演示时亮眼，落地时拉胯”——MIT最新报告显示，95%的企业生成式AI试点无法推进至生产阶段，Salesforce自身研究也发现，仅依赖大语言模型（LLM）的AI代理在复杂业务场...

新技术 # CRMArena-Pro # Salesforce

7个月前

01530

加载更多

新型强化学习算法框架EMPG：提升了智能体在长时域任务中的性能与稳定性

RewardDance：用生成式奖励重塑视觉强化学习，让AI生成的图像和视频真正“理解”你的需求

Meta FAIR提出 Darling：用强化学习平衡大语言模型生成质量与语义多样性

清华大学等提出UPGE框架：用统一视角重构大模型后训练

PractiLight：基于基础扩散模型实现实用光照控制，兼顾泛化与效率

TRKT：用关系感知与时序增强提升弱监督场景图生成

RealDevWorld：首个面向 AI 开发的生产级软件工程基准

腾讯推出 Think in Games (TiG) 框架：通过强化学习结合大语言模型来提升模型在游戏环境中的决策和推理能力

新型辅助训练目标Token Order Prediction (TOP)：用于改进语言模型中的下一个词预测（NTP）任务

字节跳动推出 UltraMemV2：在低内存访问下，追平8专家MoE性能

Beyond Memorization：通过不同的架构和训练方法来提升大语言模型多步推理能力

应对 95% AI 试点失败！Salesforce 发布 CRMArena-Pro，模拟真实业务环境

S.H.I.T

ArkClaw

JVSClaw

新360 安全龙虾

PaperStudio

美伊冲突实时追踪

新技术

网址

S.H.I.T

ArkClaw

JVSClaw

新360 安全龙虾

PaperStudio

美伊冲突实时追踪