SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    新技术

    共 939 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    ST-AR:让自回归图像生成学会“先理解,再生成”

    ST-AR:让自回归图像生成学会“先理解,再生成”

    自回归模型(Autoregressive, AR)因其强大的序列建模能力,最初在自然语言处理中取得成功,随后被引入图像生成领域。这类模型将图像视为“视觉词元”序列,通过逐个预测 token 的方式重建...
    新技术# ST-AR# 自回归图像生成
    3个月前
    01210
    局部性从何而来?MIT与丰田研究所揭示扩散模型中的数据驱动机制

    局部性从何而来?MIT与丰田研究所揭示扩散模型中的数据驱动机制

    在图像生成领域,扩散模型已成为主流架构之一。其训练过程基于一个理论上的“最优去噪器”——即在给定噪声水平下,能够最小化重建误差的理想函数。有趣的是,这一最优解虽然数学上可定义,却只能复现训练集中的样本...
    新技术# 图像扩散模型
    3个月前
    0760
    艾伦AI研究所推出Fluid Benchmarking:为每个语言模型定制最合适的考题

    艾伦AI研究所推出Fluid Benchmarking:为每个语言模型定制最合适的考题

    在当前的语言模型评测中,我们通常采用“统一试卷”模式: 无论模型是刚起步的小型模型,还是千亿参数的顶尖系统,都使用同一套固定题目进行打分。 这就像让小学生和博士生做同一份数学卷子——看似公平,实则难以...
    新技术# Fluid Benchmarking# 流动基准测试# 艾伦AI研究所
    3个月前
    0970
    蚂蚁集团发布针对多跳问答任务的增强型检索-生成(RAG)框架HANRAG

    蚂蚁集团发布针对多跳问答任务的增强型检索-生成(RAG)框架HANRAG

    蚂蚁集团发布新型框架HANRAG,这是一个针对多跳问答任务的增强型检索-生成(RAG)框架,通过结合启发式方法和强大的“启示者”(Revelator)主代理,高效处理各种复杂性的问题,提高多跳问答系统...
    新技术# HANRAG# 蚂蚁集团
    3个月前
    0900
    开源机器人学习框架Ark:简化机器人软件开发和部署而设计

    开源机器人学习框架Ark:简化机器人软件开发和部署而设计

    达姆施塔特工业大学、华为诺亚方舟、伦敦帝国理工学院、牛津大学和伦敦大学学院的研究人员推出开源机器人学习框架Ark,通过提供一个基于 Python 的、易于使用的环境来加速机器人学习的研究和商业部署。 ...
    新技术# Ark# 机器人学习框架
    3个月前
    0600
    新型强化学习算法框架EMPG:提升了智能体在长时域任务中的性能与稳定性

    新型强化学习算法框架EMPG:提升了智能体在长时域任务中的性能与稳定性

    在复杂任务中,如网页购物、虚拟环境导航或深度信息检索,大语言模型(LLM)作为智能体的表现正日益受到关注。然而,一个长期困扰研究者的难题是:这些任务往往只在最终成功或失败时给出奖励信号——中间成百上千...
    新技术# EMPG# 强化学习算法
    3个月前
    01520
    RewardDance:用生成式奖励重塑视觉强化学习,让AI生成的图像和视频真正“理解”你的需求

    RewardDance:用生成式奖励重塑视觉强化学习,让AI生成的图像和视频真正“理解”你的需求

    在视觉生成领域,强化学习(Reinforcement Learning, RL)正成为提升模型表现的关键手段。其中,奖励模型(Reward Model, RM)作为引导生成方向的核心组件,直接影响最终...
    新技术# RewardDance# 字节跳动
    3个月前
    01090
    Meta FAIR提出 Darling:用强化学习平衡大语言模型生成质量与语义多样性

    Meta FAIR提出 Darling:用强化学习平衡大语言模型生成质量与语义多样性

    由 Meta FAIR、卡内基梅隆大学与约翰霍普金斯大学联合提出的新框架 Darling(Diversity-Aware Reinforcement Learning for Generation...
    新技术# Darling# Meta FAIR# 大语言模型
    3个月前
    01550
    清华大学等提出UPGE框架:用统一视角重构大模型后训练

    清华大学等提出UPGE框架:用统一视角重构大模型后训练

    在大语言模型(LLM)的训练流程中,“后训练”(post-training)是连接预训练与实际应用的关键阶段。当前主流方法主要包括两类:监督微调(SFT)和强化学习(RL)。前者依赖高质量演示数据,强...
    新技术# UPGE# 大模型后训练
    3个月前
    01220
    PractiLight:基于基础扩散模型实现实用光照控制,兼顾泛化与效率

    PractiLight:基于基础扩散模型实现实用光照控制,兼顾泛化与效率

    在图像生成领域,精准控制光照一直是颇具挑战性的任务 —— 改变场景光照不仅要调整直接光源效果,还需协调反射、阴影、高光等连锁反应,涉及全图像及多频率范围的复杂关系。现有方法多依赖大规模特定领域数据集训...
    新技术# PractiLight# 光照控制
    3个月前
    01180
    TRKT:用关系感知与时序增强提升弱监督场景图生成

    TRKT:用关系感知与时序增强提升弱监督场景图生成

    在视频理解任务中,如何让机器“看懂”复杂的视觉场景?不仅要知道画面中有哪些对象,还要理解它们之间的互动关系——这正是动态场景图生成(Dynamic Scene Graph Generation, DS...
    新技术# TRKT# 场景图生成
    3个月前
    01330
    RealDevWorld:首个面向 AI 开发的生产级软件工程基准

    RealDevWorld:首个面向 AI 开发的生产级软件工程基准

    随着 AI 编程能力的快速演进,越来越多的模型可以“一键生成”完整应用。但一个问题随之而来:我们该如何判断这些 AI 生成的应用,是否真的可用? 传统的代码评测方法,如 LeetCode 式的算法题或...
    新技术# RealDevWorld# 软件工程基准
    3个月前
    01120
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Next AI Draw.io

    Next AI Draw.io

    Next AI Draw.io 是一个基于 Next.js 的 Web 应用,将大语言模型(LLM)与 draw.io 的强大图表能力深度集成。用户可通过自然语言指令创建、修改和增强专业图表,无需手动拖拽。
    MuMuAINovel

    MuMuAINovel

    MuMuAINovel 是一款开源的 AI 小说创作辅助工具,专为写作者设计。它不替代你的创意,而是帮你把想法快速转化为结构完整、设定一致、可扩展的长篇故事。
    OiiOii AI

    OiiOii AI

    OiiOii.ai 是一个基于多智能体架构的动画生成平台,其核心目标是将动画制作从线性协作流程,转变为端到端的自动化生成。用户只需上传一张图片或输入一段文字描述,系统即可自动完成剧本生成、分镜设计、角色建模、镜头调度、配乐合成与最终渲染,输出一段完整动画视频。
     Hitem3D 

     Hitem3D 

    Hitem3D由Math Magic开发,是一款基于专有高分辨率AI模型Sparc3D的3D生成工具。只需上传一张参考图像,即可即时生成行业领先品质的工作室级3D资产,极大降低了3D创作的门槛。这一突破性解决方案赋能游戏开发者、设计师和3D艺术家高效释放创意,加速从概念到部署的创作流程。
    AI 智能盲人眼镜系统

    AI 智能盲人眼镜系统

    AI 智能盲人眼镜系统是一个面向视障用户的智能辅助工具原型,整合了盲道导航、过马路辅助、物品识别和语音交互等核心功能。通过视频、音频、IMU(惯性测量单元)等多模态输入,系统可提供实时语音引导与环境感知能力,帮助用户更安全地感知周围环境。
    查看完整榜单