SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 958 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    GenEx:从单张RGB图像生成一个可探索的3D一致性虚拟环境

    GenEx:从单张RGB图像生成一个可探索的3D一致性虚拟环境

    理解、导航和探索三维物理现实世界一直是人工智能(AI)领域的一个核心挑战。传统的方法通常依赖于传感器数据(如摄像头、激光雷达等)来构建环境的即时感知,但这限制了代理在未见区域的预测能力和决策效率。为了...
    新技术# GenEx
    1年前
    02850
    新型Transformer框架Gaze-LLE:用于估计人在场景中注视的目标位置

    新型Transformer框架Gaze-LLE:用于估计人在场景中注视的目标位置

    佐治亚理工学院和伊利诺伊大学厄巴纳-香槟分校的研究人员推出新型Transformer框架,它用于估计人在场景中注视的目标位置。这项技术的核心在于预测一个人在观看什么,这需要对个体的外观和场景内容进行推...
    新技术# Gaze-LLE
    1年前
    02950
    Long Volumetric Video:高效地表示和渲染长时间的体积视频

    Long Volumetric Video:高效地表示和渲染长时间的体积视频

    浙江大学、斯坦福大学和香港科技大学的研究人员发布论文,主题是关于如何高效地表示和渲染长时间的体积视频(Long Volumetric Video)。体积视频是一种能够从多个视角捕捉动态场景并提供自由视...
    新技术# EasyVolcap# longvolcap# 体积视频
    1年前
    04200
    Meta开源的人体动作生成模型Meta Motivo:生成符合物理规律的复杂的全身动作

    Meta开源的人体动作生成模型Meta Motivo:生成符合物理规律的复杂的全身动作

    Meta Motivo 是一个创新的行为基础模型,旨在通过一种新的无监督强化学习(RL)算法——前向-后向表示与条件策略正则化(FB-CPR),来控制复杂虚拟人形代理的运动。该模型能够在测试时通过提示...
    新技术# Meta Motivo
    1年前
    03470
    FireFlow:用于快速反转和编辑图像语义内容,提高图像生成和编辑的效率和准确性

    FireFlow:用于快速反转和编辑图像语义内容,提高图像生成和编辑的效率和准确性

    尽管带有蒸馏的校正流(ReFlows)为快速采样提供了一种有前景的方法,但其快速反演过程——即将图像转换回结构化噪声以进行恢复和后续编辑——仍然面临挑战。具体来说,传统的ReFlow方法在反演过程中可...
    新技术# FireFlow# 图像生成
    1年前
    03900
    图像超分辨率技术InvSR:基于扩散反转(Diffusion Inversion)来提高图像的分辨率

    图像超分辨率技术InvSR:基于扩散反转(Diffusion Inversion)来提高图像的分辨率

    南洋理工大学(NTU)S-Lab提出了一种新的图像超分辨率(Super-Resolution, SR)技术——InvSR,旨在利用大型预训练扩散模型中封装的丰富图像先验来提高SR性能。传统的超分辨率方...
    新技术# InvSR# 图像超分辨率
    1年前
    04060
    多概念图像生成方法LoRACLR:在单一模型中合并多个特定概念(如人物、物体或艺术风格)并生成多概念图像

    多概念图像生成方法LoRACLR:在单一模型中合并多个特定概念(如人物、物体或艺术风格)并生成多概念图像

    近年来,文本到图像定制技术的进步使得个性化图像的高保真、内容丰富的生成成为可能,允许特定概念在各种场景中出现。然而,当前的方法在结合多个个性化模型时面临挑战,常常导致属性纠缠(即不同概念之间的混淆)或...
    新技术# LoRACLR# 多概念图像
    1年前
    02720
    OLA-VLM:提升多模态大语言模型中的视觉感知能力

    OLA-VLM:提升多模态大语言模型中的视觉感知能力

    开发当代多模态大语言模型(MLLMs)的标准做法是将视觉编码器的特征输入到大型语言模型(LLM)中,并通过自然语言监督进行训练。然而,这种方法存在一个潜在的局限性:仅依赖自然语言监督对于MLLM的视觉...
    新技术# OLA-VLM# 多模态大语言模型
    1年前
    02760
    文生图模型SnapGen:能够在移动平台上生成高分辨率和高品质的图像

    文生图模型SnapGen:能够在移动平台上生成高分辨率和高品质的图像

    现有的文本到图像(T2I)扩散模型虽然在生成高质量图像方面表现出色,但面临着几个关键挑战: 模型尺寸大:许多先进的T2I模型包含数十亿个参数,导致存储和部署成本高昂。 运行时间慢:生成高分辨率图像通常...
    新技术# SnapGen# 文生图模型
    1年前
    03230
    Neural LightRig:从单张图片中准确估计物体的表面法线(normals)和物理基础渲染(PBR)材料

    Neural LightRig:从单张图片中准确估计物体的表面法线(normals)和物理基础渲染(PBR)材料

    香港中文大学、上海AI实验室和南洋理工大学的研究人员推出新型框架Neural LightRig,它能够从单张图片中准确估计物体的表面法线(normals)和物理基础渲染(PBR)材料。这个框架通过利用...
    新技术# Neural LightRig
    1年前
    03450
    Track4Gen:用于视频生成的空间感知视频生成器

    Track4Gen:用于视频生成的空间感知视频生成器

    Adob​​e 研究中心、韩国科学技术院和伦敦大学学院的研究人员推出Track4Gen,这是一个用于视频生成的空间感知视频生成器,它结合了视频扩散损失和跨帧点跟踪,提供了对扩散特征的空间监督,以增强视...
    新技术# Track4Gen
    1年前
    03210
    文本驱动的风格迁移方法StyleStudio:根据文本提示将特定风格的参考图像与目标内容图像结合起来

    文本驱动的风格迁移方法StyleStudio:根据文本提示将特定风格的参考图像与目标内容图像结合起来

    西湖大学 AGI 实验室、复旦大学、南洋理工大学和香港科技大学(广州)的研究人员推出文本驱动的风格迁移方法StyleStudio,它可以根据文本提示将特定风格的参考图像与目标内容图像结合起来。这种方法...
    新技术# StyleStudio# 风格迁移
    1年前
    02930
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    Loomy

    新Loomy

    科大讯飞正式发布基于AstronClaw打造的桌面AI助理Loomy。Loomy面向本地办公场景,支持文件整理、内容创作、数据分析、网页操作、邮件处理等多步骤任务自动执行。
    360 安全龙虾

    新360 安全龙虾

    60安全龙虾目前已接入16家国内主流大模型,覆盖文本生成、编程开发、多模态创作等多种能力。同时内置100余个高频技能,可直接用于文档生成、数据分析、PPT制作、会议转写等常见办公场景。
    ArkClaw

    ArkClaw

    字节旗下火山引擎正式上线 ArkClaw, 开箱即用的云上 SaaS 版 OpenClaw。无需任何复杂配置,打开网页即可使用 7×24 小时在线的 AI 助手。
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    查看完整榜单