SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    百科

    共 2250 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    GenEx:从单张RGB图像生成一个可探索的3D一致性虚拟环境

    GenEx:从单张RGB图像生成一个可探索的3D一致性虚拟环境

    理解、导航和探索三维物理现实世界一直是人工智能(AI)领域的一个核心挑战。传统的方法通常依赖于传感器数据(如摄像头、激光雷达等)来构建环境的即时感知,但这限制了代理在未见区域的预测能力和决策效率。为了...
    新技术# GenEx
    1年前
    02810
    新型Transformer框架Gaze-LLE:用于估计人在场景中注视的目标位置

    新型Transformer框架Gaze-LLE:用于估计人在场景中注视的目标位置

    佐治亚理工学院和伊利诺伊大学厄巴纳-香槟分校的研究人员推出新型Transformer框架,它用于估计人在场景中注视的目标位置。这项技术的核心在于预测一个人在观看什么,这需要对个体的外观和场景内容进行推...
    新技术# Gaze-LLE
    12个月前
    02760
    Long Volumetric Video:高效地表示和渲染长时间的体积视频

    Long Volumetric Video:高效地表示和渲染长时间的体积视频

    浙江大学、斯坦福大学和香港科技大学的研究人员发布论文,主题是关于如何高效地表示和渲染长时间的体积视频(Long Volumetric Video)。体积视频是一种能够从多个视角捕捉动态场景并提供自由视...
    新技术# EasyVolcap# longvolcap# 体积视频
    1年前
    03780
    Meta开源的人体动作生成模型Meta Motivo:生成符合物理规律的复杂的全身动作

    Meta开源的人体动作生成模型Meta Motivo:生成符合物理规律的复杂的全身动作

    Meta Motivo 是一个创新的行为基础模型,旨在通过一种新的无监督强化学习(RL)算法——前向-后向表示与条件策略正则化(FB-CPR),来控制复杂虚拟人形代理的运动。该模型能够在测试时通过提示...
    新技术# Meta Motivo
    1年前
    03280
    FireFlow:用于快速反转和编辑图像语义内容,提高图像生成和编辑的效率和准确性

    FireFlow:用于快速反转和编辑图像语义内容,提高图像生成和编辑的效率和准确性

    尽管带有蒸馏的校正流(ReFlows)为快速采样提供了一种有前景的方法,但其快速反演过程——即将图像转换回结构化噪声以进行恢复和后续编辑——仍然面临挑战。具体来说,传统的ReFlow方法在反演过程中可...
    新技术# FireFlow# 图像生成
    1年前
    03520
    图像超分辨率技术InvSR:基于扩散反转(Diffusion Inversion)来提高图像的分辨率

    图像超分辨率技术InvSR:基于扩散反转(Diffusion Inversion)来提高图像的分辨率

    南洋理工大学(NTU)S-Lab提出了一种新的图像超分辨率(Super-Resolution, SR)技术——InvSR,旨在利用大型预训练扩散模型中封装的丰富图像先验来提高SR性能。传统的超分辨率方...
    新技术# InvSR# 图像超分辨率
    1年前
    03670
    多概念图像生成方法LoRACLR:在单一模型中合并多个特定概念(如人物、物体或艺术风格)并生成多概念图像

    多概念图像生成方法LoRACLR:在单一模型中合并多个特定概念(如人物、物体或艺术风格)并生成多概念图像

    近年来,文本到图像定制技术的进步使得个性化图像的高保真、内容丰富的生成成为可能,允许特定概念在各种场景中出现。然而,当前的方法在结合多个个性化模型时面临挑战,常常导致属性纠缠(即不同概念之间的混淆)或...
    新技术# LoRACLR# 多概念图像
    1年前
    02660
    OLA-VLM:提升多模态大语言模型中的视觉感知能力

    OLA-VLM:提升多模态大语言模型中的视觉感知能力

    开发当代多模态大语言模型(MLLMs)的标准做法是将视觉编码器的特征输入到大型语言模型(LLM)中,并通过自然语言监督进行训练。然而,这种方法存在一个潜在的局限性:仅依赖自然语言监督对于MLLM的视觉...
    新技术# OLA-VLM# 多模态大语言模型
    1年前
    02650
    文生图模型SnapGen:能够在移动平台上生成高分辨率和高品质的图像

    文生图模型SnapGen:能够在移动平台上生成高分辨率和高品质的图像

    现有的文本到图像(T2I)扩散模型虽然在生成高质量图像方面表现出色,但面临着几个关键挑战: 模型尺寸大:许多先进的T2I模型包含数十亿个参数,导致存储和部署成本高昂。 运行时间慢:生成高分辨率图像通常...
    新技术# SnapGen# 文生图模型
    1年前
    03180
    Neural LightRig:从单张图片中准确估计物体的表面法线(normals)和物理基础渲染(PBR)材料

    Neural LightRig:从单张图片中准确估计物体的表面法线(normals)和物理基础渲染(PBR)材料

    香港中文大学、上海AI实验室和南洋理工大学的研究人员推出新型框架Neural LightRig,它能够从单张图片中准确估计物体的表面法线(normals)和物理基础渲染(PBR)材料。这个框架通过利用...
    新技术# Neural LightRig
    1年前
    03230
    Track4Gen:用于视频生成的空间感知视频生成器

    Track4Gen:用于视频生成的空间感知视频生成器

    Adob​​e 研究中心、韩国科学技术院和伦敦大学学院的研究人员推出Track4Gen,这是一个用于视频生成的空间感知视频生成器,它结合了视频扩散损失和跨帧点跟踪,提供了对扩散特征的空间监督,以增强视...
    新技术# Track4Gen
    1年前
    03020
    文本驱动的风格迁移方法StyleStudio:根据文本提示将特定风格的参考图像与目标内容图像结合起来

    文本驱动的风格迁移方法StyleStudio:根据文本提示将特定风格的参考图像与目标内容图像结合起来

    西湖大学 AGI 实验室、复旦大学、南洋理工大学和香港科技大学(广州)的研究人员推出文本驱动的风格迁移方法StyleStudio,它可以根据文本提示将特定风格的参考图像与目标内容图像结合起来。这种方法...
    新技术# StyleStudio# 风格迁移
    1年前
    02770
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单