SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    新技术

    共 939 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    OLA-VLM:提升多模态大语言模型中的视觉感知能力

    OLA-VLM:提升多模态大语言模型中的视觉感知能力

    开发当代多模态大语言模型(MLLMs)的标准做法是将视觉编码器的特征输入到大型语言模型(LLM)中,并通过自然语言监督进行训练。然而,这种方法存在一个潜在的局限性:仅依赖自然语言监督对于MLLM的视觉...
    新技术# OLA-VLM# 多模态大语言模型
    1年前
    02650
    文生图模型SnapGen:能够在移动平台上生成高分辨率和高品质的图像

    文生图模型SnapGen:能够在移动平台上生成高分辨率和高品质的图像

    现有的文本到图像(T2I)扩散模型虽然在生成高质量图像方面表现出色,但面临着几个关键挑战: 模型尺寸大:许多先进的T2I模型包含数十亿个参数,导致存储和部署成本高昂。 运行时间慢:生成高分辨率图像通常...
    新技术# SnapGen# 文生图模型
    1年前
    03180
    Neural LightRig:从单张图片中准确估计物体的表面法线(normals)和物理基础渲染(PBR)材料

    Neural LightRig:从单张图片中准确估计物体的表面法线(normals)和物理基础渲染(PBR)材料

    香港中文大学、上海AI实验室和南洋理工大学的研究人员推出新型框架Neural LightRig,它能够从单张图片中准确估计物体的表面法线(normals)和物理基础渲染(PBR)材料。这个框架通过利用...
    新技术# Neural LightRig
    1年前
    03210
    Track4Gen:用于视频生成的空间感知视频生成器

    Track4Gen:用于视频生成的空间感知视频生成器

    Adob​​e 研究中心、韩国科学技术院和伦敦大学学院的研究人员推出Track4Gen,这是一个用于视频生成的空间感知视频生成器,它结合了视频扩散损失和跨帧点跟踪,提供了对扩散特征的空间监督,以增强视...
    新技术# Track4Gen
    1年前
    02980
    文本驱动的风格迁移方法StyleStudio:根据文本提示将特定风格的参考图像与目标内容图像结合起来

    文本驱动的风格迁移方法StyleStudio:根据文本提示将特定风格的参考图像与目标内容图像结合起来

    西湖大学 AGI 实验室、复旦大学、南洋理工大学和香港科技大学(广州)的研究人员推出文本驱动的风格迁移方法StyleStudio,它可以根据文本提示将特定风格的参考图像与目标内容图像结合起来。这种方法...
    新技术# StyleStudio# 风格迁移
    1年前
    02750
    StreamChat:增强大型多模态模型(LMMs)与流媒体视频内容的交互能力

    StreamChat:增强大型多模态模型(LMMs)与流媒体视频内容的交互能力

    香港中文大学、英伟达、上海人工智能实验室、InnoHK和香港理工大学的研究人员推出新型方法StreamChat,它旨在增强大型多模态模型(LMMs)与流媒体视频内容的交互能力。在流媒体交互场景中,现有...
    新技术# StreamChat# 多模态模型
    1年前
    03010
    视频风格化方法StyleMaster:能够对视频进行艺术化生成和风格转换

    视频风格化方法StyleMaster:能够对视频进行艺术化生成和风格转换

    香港科技大学和快手的研究人员推出视频风格化方法StyleMaster,它能够对视频进行艺术化生成和风格转换。StyleMaster通过结合全局和局部的风格表示,实现了对视频内容的风格化处理,同时保持了...
    新技术# StyleMaster# 视频风格化
    1年前
    02830
    基于预训练流模型的新型文本驱动图像编辑方法FlowEdit:适用于SD3和Flux模型

    基于预训练流模型的新型文本驱动图像编辑方法FlowEdit:适用于SD3和Flux模型

    使用预训练的文本到图像(T2I)扩散或流模型编辑真实图像是一项具有挑战性的任务。传统的方法通常涉及将目标图像反转为对应的噪声图,然后根据新的文本提示重新生成图像。然而,仅靠反转变换往往无法获得满意的结...
    新技术# FlowEdit# 图像编辑
    1年前
    03010
    强调了结构化注释的使用!用于训练复杂图像-文本模型的大规模数据集LAION-SG

    强调了结构化注释的使用!用于训练复杂图像-文本模型的大规模数据集LAION-SG

    浙江大学、江南大学、北京大学、阿里巴巴集团和蚂蚁集团的研究人员推出一个用于训练复杂图像-文本模型的大规模数据集LAION-SG,特别强调了结构化注释的使用。LAION-SG通过提供场景图(Scene ...
    新技术# LAION-SG# 数据集
    1年前
    02930
    多视角视频生成新技术SynCamMaster:能够从不同的视点生成同步的、一致性高的动态场景视频

    多视角视频生成新技术SynCamMaster:能够从不同的视点生成同步的、一致性高的动态场景视频

    浙江大学、快手科技、清华大学和香港中文大学的研究人员推出一种用于多视角视频生成的技术SynCamMaster,能够从不同的视点生成同步的、一致性高的动态场景视频。这项技术特别适用于虚拟拍摄等应用,它通...
    新技术# SynCamMaster# 多视角视频
    1年前
    03100
    用于组合式文生图新框架GraPE:将复杂的多步生成任务分解为三个独立的步骤

    用于组合式文生图新框架GraPE:将复杂的多步生成任务分解为三个独立的步骤

    文本到图像(T2I)生成任务的目标是从文本提示生成逼真的图像。尽管扩散模型在这一领域取得了显著进展,但现有方法在处理复杂的多步推理和组合性提示时仍面临挑战。特别是,当文本提示包含多个对象及其属性之间的...
    新技术# GraPE# 文生图
    1年前
    03230
    ObjCtrl-2.5D:用于图像到视频(I2V)生成中的训练无关对象控制技术

    ObjCtrl-2.5D:用于图像到视频(I2V)生成中的训练无关对象控制技术

    图像到视频(I2V)生成任务的目标是从单张图像生成一段连贯的视频,通常涉及对目标对象进行空间移动或变形。现有的方法大多依赖于2D轨迹来表示对象的运动,这虽然简单但存在局限性: 无法捕捉用户意图:2D轨...
    新技术# ObjCtrl-2.5D# 图生视频
    1年前
    02980
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    云文档查找工具

    云文档查找工具

    云文档分享站支持一键搜索飞书、Notion、语雀、FlowUS等平台云文档,目前已收录优质文档666个
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    Poe API

    Poe API

    Quora 旗下的 AI 聚合平台 Poe 正式推出 开发者 API,允许开发者通过统一接口,调用平台上超过 100 款文本、图像、语音和视频生成模型。
    OpenSkills

    OpenSkills

    OpenSkills 是 Anthropic的 Claude Skills 系统的开源实现。它让 Cursor、Windsurf、Aider 等主流 AI 编码代理也能使用与 Claude Code 完全兼容的技能系统——相同的提示格式、相同的文件结构、相同的渐进式披露机制,只是调用方式从内置工具变为 CLI 命令。
    查看完整榜单