SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    强化学习

    共 9 篇文章
    排序
    发布更新浏览点赞
    让语言模型“集体进化”:Gensyn推出去中心化强化学习新算法 SAPO

    让语言模型“集体进化”:Gensyn推出去中心化强化学习新算法 SAPO

    在提升语言模型推理能力的道路上,传统方法往往依赖大量人工标注数据进行监督微调(SFT),或集中式强化学习系统完成后训练。然而,这类方式成本高昂、扩展困难,且对硬件资源要求严苛。 最近,AI初创公司 G...
    大语言模型# SAPO# 强化学习
    3个月前
    01040
    清华、上交大等团队提出 SSRL:无需外部搜索的强化学习新范式

    清华、上交大等团队提出 SSRL:无需外部搜索的强化学习新范式

    在当前主流的“代理式搜索”(Agentic Search)系统中,大型语言模型(LLM)通常通过调用外部搜索引擎(如 Google、Bing 或专用 API)来获取实时信息,以回答复杂问题。这一模式虽...
    大语言模型# SSRL# 强化学习
    4个月前
    01550
    INTELLECT-2 发布:首个通过全球分布式强化学习训练的 32B 参数模型

    INTELLECT-2 发布:首个通过全球分布式强化学习训练的 32B 参数模型

    Prime Intellect发布 INTELLECT-2,这是首个通过全球分布式强化学习训练的 32B 参数模型。与传统的集中式训练不同,INTELLECT-2 使用完全异步的强化学习(RL),在一...
    大语言模型# INTELLECT-2# 强化学习
    7个月前
    02230
    Flow-GRPO:将在线强化学习与流匹配模型相结合,用于提升文生图模型生成任务的性能

    Flow-GRPO:将在线强化学习与流匹配模型相结合,用于提升文生图模型生成任务的性能

    香港中文大学MM实验室、清华大学、快手科技、南京大学和上海人工智能实验室推出新方法Flow-GRPO,它将在线强化学习(Reinforcement Learning, RL)与流匹配(Flow Mat...
    新技术# Flow-GRPO# 强化学习# 流匹配
    7个月前
    03610
    OpenAI宣布第三方开发者现在可通过强化学习微调o4-mini模型,打造企业专属AI助手

    OpenAI宣布第三方开发者现在可通过强化学习微调o4-mini模型,打造企业专属AI助手

    OpenAI今天宣布,第三方开发者现在可以通过强化学习(RFT)对o4-mini语言推理模型进行微调。这一功能的推出,使企业能够根据自身需求定制专属的私有版本,从而更好地服务于内部沟通、知识管理、任务...
    早报# o4-mini# OpenAI# 强化学习
    7个月前
    01830
    阿里通义实验室开源R1-Omni:用强化学习解锁全模态大模型的新潜力

    阿里通义实验室开源R1-Omni:用强化学习解锁全模态大模型的新潜力

    随着DeepSeek R1的发布,强化学习在大模型领域的潜力得到了进一步挖掘。Reinforcement Learning with Verifiable Reward(RLVR)方法为多模态任务提供...
    多模态模型# R1-Omni# 全模态大模型# 强化学习
    9个月前
    02160
    阿里Qwen团队推出强化学习增强的推理模型QwQ-32B

    阿里Qwen团队推出强化学习增强的推理模型QwQ-32B

    阿里云的Qwen团队最近宣布了一项重要进展,他们通过整合大规模强化学习(RL)技术来提升大语言模型的智能水平,并推出了新的推理模型QwQ-32B。这款拥有320亿参数的模型,在性能上能够与具有6710...
    大语言模型# Qwen# QwQ-32B# 强化学习
    9个月前
    03080
    2024 年图灵奖授予强化学习领域的先驱:安德鲁·G·巴托和理查德·S·萨顿

    2024 年图灵奖授予强化学习领域的先驱:安德鲁·G·巴托和理查德·S·萨顿

    在计算机科学领域,两位杰出的科学家因其在强化学习领域的贡献而荣获2024年的图灵奖。这项技术让机器能够通过基于奖励的试错方法进行学习,从而适应各种受限或动态环境。 强化学习的奠基者 安德鲁·G·巴托...
    早报# 图灵奖# 安德鲁·G·巴托# 强化学习
    9个月前
    02120
    强化学习新范式OREAL:基于结果奖励的强化学习(RL)提升大语言模型在数学推理任务中的表现

    强化学习新范式OREAL:基于结果奖励的强化学习(RL)提升大语言模型在数学推理任务中的表现

    上海AI实验室、上海交通大学、香港中文大学和InnoHK的研究人员提出基于结果奖励的强化学习新范式OREAL,通过基于结果奖励的强化学习(RL)提升大语言模型(LLMs)在数学推理任务中的表现。该框架...
    新技术# OREAL# 大语言模型# 强化学习
    10个月前
    03570
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    EdgeOne Pages

    EdgeOne Pages

    EdgeOne Pages 是基于 Tencent EdgeOne 基础设施打造的全栈开发部署平台,提供从前端页面到动态 API 的无服务器部署体验,适用于构建营销网站、AI 应用等现代 Web 项目。通过边缘网络全球加速,确保应用获得快速、稳定的访问体验。
    Ebook2Audiobook

    Ebook2Audiobook

    Ebook2Audiobook是一款将非DRM保护的电子书转换为高质量有声书的工具,并保留章节和元数据。通过结合Calibre、Coqui XTTSv2和Fairseq等开源项目,确保每本有声书听起来自然流畅。
    马卡龙(Macaron AI)

    马卡龙(Macaron AI)

    马卡龙是超懂你的个人智能体,一句话就能生成你的专属工具。马卡龙不是又一个“效率机器人”。它温暖、有共情,会记住你是谁、你喜欢什么、你在意什么;更会把每次对话都变成能真正帮上忙的工具,让每天更省心、更有趣。
    OiiOii AI

    OiiOii AI

    OiiOii.ai 是一个基于多智能体架构的动画生成平台,其核心目标是将动画制作从线性协作流程,转变为端到端的自动化生成。用户只需上传一张图片或输入一段文字描述,系统即可自动完成剧本生成、分镜设计、角色建模、镜头调度、配乐合成与最终渲染,输出一段完整动画视频。
    QM-Music 

    QM-Music 

    QM-Music 是一个基于 Subsonic 构建的轻量级私有云音乐服务器,专为音乐爱好者设计的轻量级高性能解决方案。支持 Docker 一键部署,完美兼容 Subsonic 生态客户端(如音流/Amperfy/substreamer/feishin/music-assistant),让您随时随地安全访问个人音乐库。
    Grok

    Grok

    Grok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。
    查看完整榜单