SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    强化学习

    共 9 篇文章
    排序
    发布更新浏览点赞
    让语言模型“集体进化”:Gensyn推出去中心化强化学习新算法 SAPO

    让语言模型“集体进化”:Gensyn推出去中心化强化学习新算法 SAPO

    在提升语言模型推理能力的道路上,传统方法往往依赖大量人工标注数据进行监督微调(SFT),或集中式强化学习系统完成后训练。然而,这类方式成本高昂、扩展困难,且对硬件资源要求严苛。 最近,AI初创公司 G...
    大语言模型# SAPO# 强化学习
    3个月前
    01040
    清华、上交大等团队提出 SSRL:无需外部搜索的强化学习新范式

    清华、上交大等团队提出 SSRL:无需外部搜索的强化学习新范式

    在当前主流的“代理式搜索”(Agentic Search)系统中,大型语言模型(LLM)通常通过调用外部搜索引擎(如 Google、Bing 或专用 API)来获取实时信息,以回答复杂问题。这一模式虽...
    大语言模型# SSRL# 强化学习
    4个月前
    01520
    INTELLECT-2 发布:首个通过全球分布式强化学习训练的 32B 参数模型

    INTELLECT-2 发布:首个通过全球分布式强化学习训练的 32B 参数模型

    Prime Intellect发布 INTELLECT-2,这是首个通过全球分布式强化学习训练的 32B 参数模型。与传统的集中式训练不同,INTELLECT-2 使用完全异步的强化学习(RL),在一...
    大语言模型# INTELLECT-2# 强化学习
    7个月前
    02230
    Flow-GRPO:将在线强化学习与流匹配模型相结合,用于提升文生图模型生成任务的性能

    Flow-GRPO:将在线强化学习与流匹配模型相结合,用于提升文生图模型生成任务的性能

    香港中文大学MM实验室、清华大学、快手科技、南京大学和上海人工智能实验室推出新方法Flow-GRPO,它将在线强化学习(Reinforcement Learning, RL)与流匹配(Flow Mat...
    新技术# Flow-GRPO# 强化学习# 流匹配
    7个月前
    03440
    OpenAI宣布第三方开发者现在可通过强化学习微调o4-mini模型,打造企业专属AI助手

    OpenAI宣布第三方开发者现在可通过强化学习微调o4-mini模型,打造企业专属AI助手

    OpenAI今天宣布,第三方开发者现在可以通过强化学习(RFT)对o4-mini语言推理模型进行微调。这一功能的推出,使企业能够根据自身需求定制专属的私有版本,从而更好地服务于内部沟通、知识管理、任务...
    早报# o4-mini# OpenAI# 强化学习
    7个月前
    01830
    阿里通义实验室开源R1-Omni:用强化学习解锁全模态大模型的新潜力

    阿里通义实验室开源R1-Omni:用强化学习解锁全模态大模型的新潜力

    随着DeepSeek R1的发布,强化学习在大模型领域的潜力得到了进一步挖掘。Reinforcement Learning with Verifiable Reward(RLVR)方法为多模态任务提供...
    多模态模型# R1-Omni# 全模态大模型# 强化学习
    9个月前
    02160
    阿里Qwen团队推出强化学习增强的推理模型QwQ-32B

    阿里Qwen团队推出强化学习增强的推理模型QwQ-32B

    阿里云的Qwen团队最近宣布了一项重要进展,他们通过整合大规模强化学习(RL)技术来提升大语言模型的智能水平,并推出了新的推理模型QwQ-32B。这款拥有320亿参数的模型,在性能上能够与具有6710...
    大语言模型# Qwen# QwQ-32B# 强化学习
    9个月前
    03080
    2024 年图灵奖授予强化学习领域的先驱:安德鲁·G·巴托和理查德·S·萨顿

    2024 年图灵奖授予强化学习领域的先驱:安德鲁·G·巴托和理查德·S·萨顿

    在计算机科学领域,两位杰出的科学家因其在强化学习领域的贡献而荣获2024年的图灵奖。这项技术让机器能够通过基于奖励的试错方法进行学习,从而适应各种受限或动态环境。 强化学习的奠基者 安德鲁·G·巴托...
    早报# 图灵奖# 安德鲁·G·巴托# 强化学习
    9个月前
    02110
    强化学习新范式OREAL:基于结果奖励的强化学习(RL)提升大语言模型在数学推理任务中的表现

    强化学习新范式OREAL:基于结果奖励的强化学习(RL)提升大语言模型在数学推理任务中的表现

    上海AI实验室、上海交通大学、香港中文大学和InnoHK的研究人员提出基于结果奖励的强化学习新范式OREAL,通过基于结果奖励的强化学习(RL)提升大语言模型(LLMs)在数学推理任务中的表现。该框架...
    新技术# OREAL# 大语言模型# 强化学习
    10个月前
    03490
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Next AI Draw.io

    Next AI Draw.io

    Next AI Draw.io 是一个基于 Next.js 的 Web 应用,将大语言模型(LLM)与 draw.io 的强大图表能力深度集成。用户可通过自然语言指令创建、修改和增强专业图表,无需手动拖拽。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    OiiOii AI

    OiiOii AI

    OiiOii.ai 是一个基于多智能体架构的动画生成平台,其核心目标是将动画制作从线性协作流程,转变为端到端的自动化生成。用户只需上传一张图片或输入一段文字描述,系统即可自动完成剧本生成、分镜设计、角色建模、镜头调度、配乐合成与最终渲染,输出一段完整动画视频。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    MuMuAINovel

    MuMuAINovel

    MuMuAINovel 是一款开源的 AI 小说创作辅助工具,专为写作者设计。它不替代你的创意,而是帮你把想法快速转化为结构完整、设定一致、可扩展的长篇故事。
    查看完整榜单