SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    新技术

    共 939 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    ST-AR:让自回归图像生成学会“先理解,再生成”

    ST-AR:让自回归图像生成学会“先理解,再生成”

    自回归模型(Autoregressive, AR)因其强大的序列建模能力,最初在自然语言处理中取得成功,随后被引入图像生成领域。这类模型将图像视为“视觉词元”序列,通过逐个预测 token 的方式重建...
    新技术# ST-AR# 自回归图像生成
    3个月前
    01210
    局部性从何而来?MIT与丰田研究所揭示扩散模型中的数据驱动机制

    局部性从何而来?MIT与丰田研究所揭示扩散模型中的数据驱动机制

    在图像生成领域,扩散模型已成为主流架构之一。其训练过程基于一个理论上的“最优去噪器”——即在给定噪声水平下,能够最小化重建误差的理想函数。有趣的是,这一最优解虽然数学上可定义,却只能复现训练集中的样本...
    新技术# 图像扩散模型
    3个月前
    0760
    艾伦AI研究所推出Fluid Benchmarking:为每个语言模型定制最合适的考题

    艾伦AI研究所推出Fluid Benchmarking:为每个语言模型定制最合适的考题

    在当前的语言模型评测中,我们通常采用“统一试卷”模式: 无论模型是刚起步的小型模型,还是千亿参数的顶尖系统,都使用同一套固定题目进行打分。 这就像让小学生和博士生做同一份数学卷子——看似公平,实则难以...
    新技术# Fluid Benchmarking# 流动基准测试# 艾伦AI研究所
    3个月前
    0970
    蚂蚁集团发布针对多跳问答任务的增强型检索-生成(RAG)框架HANRAG

    蚂蚁集团发布针对多跳问答任务的增强型检索-生成(RAG)框架HANRAG

    蚂蚁集团发布新型框架HANRAG,这是一个针对多跳问答任务的增强型检索-生成(RAG)框架,通过结合启发式方法和强大的“启示者”(Revelator)主代理,高效处理各种复杂性的问题,提高多跳问答系统...
    新技术# HANRAG# 蚂蚁集团
    3个月前
    0900
    开源机器人学习框架Ark:简化机器人软件开发和部署而设计

    开源机器人学习框架Ark:简化机器人软件开发和部署而设计

    达姆施塔特工业大学、华为诺亚方舟、伦敦帝国理工学院、牛津大学和伦敦大学学院的研究人员推出开源机器人学习框架Ark,通过提供一个基于 Python 的、易于使用的环境来加速机器人学习的研究和商业部署。 ...
    新技术# Ark# 机器人学习框架
    3个月前
    0600
    新型强化学习算法框架EMPG:提升了智能体在长时域任务中的性能与稳定性

    新型强化学习算法框架EMPG:提升了智能体在长时域任务中的性能与稳定性

    在复杂任务中,如网页购物、虚拟环境导航或深度信息检索,大语言模型(LLM)作为智能体的表现正日益受到关注。然而,一个长期困扰研究者的难题是:这些任务往往只在最终成功或失败时给出奖励信号——中间成百上千...
    新技术# EMPG# 强化学习算法
    3个月前
    01520
    RewardDance:用生成式奖励重塑视觉强化学习,让AI生成的图像和视频真正“理解”你的需求

    RewardDance:用生成式奖励重塑视觉强化学习,让AI生成的图像和视频真正“理解”你的需求

    在视觉生成领域,强化学习(Reinforcement Learning, RL)正成为提升模型表现的关键手段。其中,奖励模型(Reward Model, RM)作为引导生成方向的核心组件,直接影响最终...
    新技术# RewardDance# 字节跳动
    3个月前
    01090
    Meta FAIR提出 Darling:用强化学习平衡大语言模型生成质量与语义多样性

    Meta FAIR提出 Darling:用强化学习平衡大语言模型生成质量与语义多样性

    由 Meta FAIR、卡内基梅隆大学与约翰霍普金斯大学联合提出的新框架 Darling(Diversity-Aware Reinforcement Learning for Generation...
    新技术# Darling# Meta FAIR# 大语言模型
    3个月前
    01550
    清华大学等提出UPGE框架:用统一视角重构大模型后训练

    清华大学等提出UPGE框架:用统一视角重构大模型后训练

    在大语言模型(LLM)的训练流程中,“后训练”(post-training)是连接预训练与实际应用的关键阶段。当前主流方法主要包括两类:监督微调(SFT)和强化学习(RL)。前者依赖高质量演示数据,强...
    新技术# UPGE# 大模型后训练
    3个月前
    01220
    PractiLight:基于基础扩散模型实现实用光照控制,兼顾泛化与效率

    PractiLight:基于基础扩散模型实现实用光照控制,兼顾泛化与效率

    在图像生成领域,精准控制光照一直是颇具挑战性的任务 —— 改变场景光照不仅要调整直接光源效果,还需协调反射、阴影、高光等连锁反应,涉及全图像及多频率范围的复杂关系。现有方法多依赖大规模特定领域数据集训...
    新技术# PractiLight# 光照控制
    3个月前
    01180
    TRKT:用关系感知与时序增强提升弱监督场景图生成

    TRKT:用关系感知与时序增强提升弱监督场景图生成

    在视频理解任务中,如何让机器“看懂”复杂的视觉场景?不仅要知道画面中有哪些对象,还要理解它们之间的互动关系——这正是动态场景图生成(Dynamic Scene Graph Generation, DS...
    新技术# TRKT# 场景图生成
    3个月前
    01330
    RealDevWorld:首个面向 AI 开发的生产级软件工程基准

    RealDevWorld:首个面向 AI 开发的生产级软件工程基准

    随着 AI 编程能力的快速演进,越来越多的模型可以“一键生成”完整应用。但一个问题随之而来:我们该如何判断这些 AI 生成的应用,是否真的可用? 传统的代码评测方法,如 LeetCode 式的算法题或...
    新技术# RealDevWorld# 软件工程基准
    3个月前
    01120
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Next AI Draw.io

    Next AI Draw.io

    Next AI Draw.io 是一个基于 Next.js 的 Web 应用,将大语言模型(LLM)与 draw.io 的强大图表能力深度集成。用户可通过自然语言指令创建、修改和增强专业图表,无需手动拖拽。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    MuMuAINovel

    MuMuAINovel

    MuMuAINovel 是一款开源的 AI 小说创作辅助工具,专为写作者设计。它不替代你的创意,而是帮你把想法快速转化为结构完整、设定一致、可扩展的长篇故事。
    OiiOii AI

    OiiOii AI

    OiiOii.ai 是一个基于多智能体架构的动画生成平台,其核心目标是将动画制作从线性协作流程,转变为端到端的自动化生成。用户只需上传一张图片或输入一段文字描述,系统即可自动完成剧本生成、分镜设计、角色建模、镜头调度、配乐合成与最终渲染,输出一段完整动画视频。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    查看完整榜单