SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 958 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    新型测试时扩展框架Evolutionary Search (EvoSearch) :通过在推理阶段分配额外计算资源来提升图像和视频生成模型的性能

    新型测试时扩展框架Evolutionary Search (EvoSearch) :通过在推理阶段分配额外计算资源来提升图像和视频生成模型的性能

    香港科技大学和快手的研究人员推出新型测试时扩展(Test-Time Scaling, TTS)框架Evolutionary Search (EvoSearch) ,通过在推理阶段分配额外计算资源来提升...
    新技术# Evolutionary Search# EvoSearch
    10个月前
    03660
    基于 ComfyUI 平台构建的协作式 AI 系统ComfyMind:打造稳定、灵活、可扩展的通用生成平台

    基于 ComfyUI 平台构建的协作式 AI 系统ComfyMind:打造稳定、灵活、可扩展的通用生成平台

    随着生成模型的飞速发展,“通用生成(General-Purpose Generation)”正成为 AI 领域的新焦点。它旨在通过一个统一系统,支持图像、视频、文本等多种模态任务的生成与编辑,为复杂创...
    新技术# ComfyMind# 图像生成# 视频生成
    10个月前
    03250
    纯视觉推理新范式Visual Planning:通过纯视觉表征进行规划,无需依赖文本

    纯视觉推理新范式Visual Planning:通过纯视觉表征进行规划,无需依赖文本

    剑桥大学语言技术实验室、伦敦大学学院和谷歌的研究人员一种名为“Visual Planning(视觉规划)”的新范式,通过纯视觉表征进行规划,无需依赖文本。该范式受到认知科学中双重编码理论的启发,主张人...
    新技术# Visual Planning# 视觉推理
    10个月前
    02700
    UniVG-R1:通过推理引导的多模态大语言模型实现通用视觉定位

    UniVG-R1:通过推理引导的多模态大语言模型实现通用视觉定位

    传统视觉定位方法主要关注单图像场景,依赖于简单文本引用。然而,在现实世界中,处理隐含和复杂的指令,尤其是在涉及多图像的情况下,是一个重大挑战,主要原因是缺乏跨多模态上下文的高级推理能力。 项目主页:h...
    新技术# UniVG-R1# 多模态大语言模型# 视觉定位
    10个月前
    02420
    Vid2World:将预训练的视频扩散模型转化为交互式世界模型

    Vid2World:将预训练的视频扩散模型转化为交互式世界模型

    清华大学软件学院、清华大学交叉信息研究所和重庆大学计算机学院的研究人员推出 Vid2World,将预训练的视频扩散模型(Video Diffusion Models)转化为交互式世界模型(Intera...
    新技术# Vid2World# 交互式世界模型# 视频扩散模型
    10个月前
    03080
    针对大语言模型(LLMs)的量化感知训练(QAT)的统一缩放定律

    针对大语言模型(LLMs)的量化感知训练(QAT)的统一缩放定律

    香港大学和字节跳动的研究人员介绍了一种针对大语言模型(LLMs)的量化感知训练(QAT)的统一缩放定律。量化是一种减少模型权重和激活精度的方法,以降低内存使用和计算成本。尽管现有的量化方法在中等精度...
    新技术# 大语言模型# 量化感知训练
    10个月前
    02830
    3DTown框架:从单张俯视图像生成逼真且连贯的三维(3D)场景

    3DTown框架:从单张俯视图像生成逼真且连贯的三维(3D)场景

    加州大学圣克鲁兹分校、哥伦比亚大学和Cybever AI的研究人员推出 3DTown框架,从单张俯视图像生成逼真且连贯的三维(3D)场景。传统的详细3D场景获取方法通常需要昂贵的设备、多视角数据或人工...
    新技术# 3DTown# 3D场景
    10个月前
    01930
    视频生成控制框架Uni3C:通过统一的3D增强方法精确控制视频生成中的相机和人物动作

    视频生成控制框架Uni3C:通过统一的3D增强方法精确控制视频生成中的相机和人物动作

    阿里巴巴达摩院、复旦大学和湖畔实验室的研究人员推出Uni3C框架,通过统一的3D增强方法精确控制视频生成中的相机和人物动作。 项目主页:https://ewrfcas.github.io/Uni3C ...
    新技术# Uni3C# 视频生成
    10个月前
    04000
    谷歌推出LightLab:基于扩散模型的AI工具,实现单张图像中的精细光照控制

    谷歌推出LightLab:基于扩散模型的AI工具,实现单张图像中的精细光照控制

    在图像后期处理中,操控光照条件一直是一个复杂且具有挑战性的任务。传统方法依赖于3D图形技术,通过多次捕获重建场景的几何结构和属性,并利用物理光照模型模拟新的光照效果。尽管这些技术提供了对光源的明确控制...
    新技术# LightLab# 光照控制# 谷歌
    10个月前
    03450
    英伟达发布人体运动的通用模型Genmo:实现从视频、2D 关键点、文本描述、音乐和3D 关键帧等多种条件信号中生成和估计高质量的人类运动

    英伟达发布人体运动的通用模型Genmo:实现从视频、2D 关键点、文本描述、音乐和3D 关键帧等多种条件信号中生成和估计高质量的人类运动

    英伟达研究团队开发的统一框架 GENMO,用于人类运动建模。GENMO 的目标是将人类运动估计(estimation)和生成(generation)任务整合到一个框架中,从而实现从视频、2D 关键点...
    新技术# Genmo# 人体运动# 英伟达
    10个月前
    02870
    西湖大学和浙江大学的研究人员推出统一框架UCGM:用于训练、采样和理解连续生成模型

    西湖大学和浙江大学的研究人员推出统一框架UCGM:用于训练、采样和理解连续生成模型

    西湖大学和浙江大学的研究人员推出统一框架UCGM,用于训练、采样和理解连续生成模型。UCGM通过一个统一的训练目标和采样算法,将多步生成模型(如扩散模型和流匹配模型)与少步生成模型(如一致性模型)结合...
    新技术# UCGM# 统一框架
    10个月前
    03080
    新型参考式人类图像补全框架CompleteMe:通过参考图像来补全被遮挡或缺失的人类图像区域,同时保留独特的细节信息

    新型参考式人类图像补全框架CompleteMe:通过参考图像来补全被遮挡或缺失的人类图像区域,同时保留独特的细节信息

    加州大学默塞德分校和Adobe Research的研究人员推出新型参考式人类图像补全框架CompleteMe,旨在通过参考图像来补全被遮挡或缺失的人类图像区域,同时保留独特的细节信息,如特定的服装图案...
    新技术# CompleteMe
    10个月前
    04630
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    悟空

    悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    查看完整榜单