SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    百科

    共 2219 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    新型图像编辑框架DesignEdit:实现精确的空间感知图像编辑

    新型图像编辑框架DesignEdit:实现精确的空间感知图像编辑

    微软亚洲研究院和北京大学的研究人员推出新型图像编辑框架DesignEdit,它能够实现精确的空间感知图像编辑。开发团队借鉴了设计领域的图层概念,通过灵活应用多种操作来操控图像中的对象。我们的核心思想是...
    新技术# DesignEdit# 图像编辑
    2年前
    06060
    新型图像生成模型VAR:基于Transformer的自回归模型

    新型图像生成模型VAR:基于Transformer的自回归模型

    来自北京大学和字节跳动的研究人员推出新型图像生成模型VAR(Visual Autoregressive Modeling,“视觉自回归建模”),VAR模型是一种基于Transformer的自回归(au...
    新技术# VAR模型
    2年前
    06060
    子对象级图像标记化:用于计算机视觉模型的图像处理

    子对象级图像标记化:用于计算机视觉模型的图像处理

    来自香港科技大学与小冰AI的研究人员推出名为“子对象级图像标记化”(subobject-level image tokenization)的新方法,这是一种用于计算机视觉模型的图像处理技术。这种方法受...
    新技术# 子对象级图像标记化
    2年前
    06050
    基于Transformer架构的新型视频生成模型Snap Video

    基于Transformer架构的新型视频生成模型Snap Video

    来自Snap、特伦托大学、加州大学默塞德分校、布鲁诺·凯斯勒基金会的研究人员推出新型视频生成模型Snap Video,此模型基于Transformer架构,目标是将文本描述转换成高质量的视频内容。 项...
    新技术# Snap Video# Transformer# 视频生成模型
    2年前
    06050
    字节跳动推出新颖视频合成方法Boximator:可控制画面范围及运动方向

    字节跳动推出新颖视频合成方法Boximator:可控制画面范围及运动方向

    字节跳动发布了一种新颖视频合成方法Boximator,主要用于生成具有丰富和精细运动控制的高质量视频。Boximator引入了两种约束类型:硬边框(hard box)和软边框(soft box),允许...
    新技术# Boximator# 字节跳动# 视频合成
    2年前
    06020
    OpenAI旗下模型选型指南:全面解析 GPT 系列与 o 系列,助你精准选择适合的 AI 模型

    OpenAI旗下模型选型指南:全面解析 GPT 系列与 o 系列,助你精准选择适合的 AI 模型

    OpenAI于近期接连发布了多个新的模型,但命名上的混乱让许多用户难以区分这些模型之间的区别。例如,GPT 4o、GPT-4o mini、o3、o4-mini、GPT-4.1、GPT 4.5,这些模型...
    科普# AI 模型# ChatGPT# OpenAI
    8个月前
    06000
    多模态大语言模型Oryx:专门设计用于理解和处理视觉数据,如图像、视频和3D场景

    多模态大语言模型Oryx:专门设计用于理解和处理视觉数据,如图像、视频和3D场景

    清华大学、腾讯和南洋理工大学 S-Lab的研究人员推出多模态大语言模型Oryx,它专门设计用于理解和处理视觉数据,如图像、视频和3D场景。Oryx模型的特点是能够根据需要处理任意空间大小和时间长度的视...
    新技术# Oryx# 多模态大语言模型
    1年前
    06000
    虚拟试穿扩散模型CatVTON:允许用户在不实际穿上衣物的情况下,通过照片来预览衣物穿在身上的效果

    虚拟试穿扩散模型CatVTON:允许用户在不实际穿上衣物的情况下,通过照片来预览衣物穿在身上的效果

    中山大学、Pixocial Technology、鹏程实验室和中科院深圳先进技术研究院的研究人员推出一种简单高效的虚拟试穿扩散模型CatVTON,它通过将任意类别的商店衣物或已穿戴衣物与目标人物图像在...
    新技术# CatVTON# 虚拟试穿
    1年前
    06000
    基于偏好学习的奖励模型VADER:让模型更有效地学习如何生成符合特定要求的视频

    基于偏好学习的奖励模型VADER:让模型更有效地学习如何生成符合特定要求的视频

    卡内基梅隆大学的研究人员推出奖励模型(一种基于偏好学习的方法)VADER,来指导视频生成过程,从而让模型更有效地学习如何生成符合特定要求的视频。例如,你想要生成一段描述“一只穿着红色外套、拿着雪球的浣...
    新技术# VADER# 奖励模型
    1年前
    06000
    视觉变换器VisionLLaMA:基于LLaMA架构设计,用于处理图像任务

    视觉变换器VisionLLaMA:基于LLaMA架构设计,用于处理图像任务

    来自美团、浙江大学、Moonshot AI的研究人员推出名为VisionLLaMA的新型视觉变换器(Vision Transformer),它是基于LLaMA(Large Language Model...
    新技术# VisionLLaMA# 视觉变换器
    2年前
    06000
    AI视频生成系统Direct-a-Video:像导演拍摄视频一样生成视频

    AI视频生成系统Direct-a-Video:像导演拍摄视频一样生成视频

    Direct-a-Video是一个AI视频生成系统,该系统允许用户独立地为一个或多个对象和/或相机运动指定运动,就像导演拍摄视频一样。 项目主页 开发者提出了一种简单而有效的策略,用于分别控制对象运动...
    新技术# AI视频生成# Direct-a-Video
    2年前
    06000
    AI视频生成模型Animated Stickers:让静态表情包动起来

    AI视频生成模型Animated Stickers:让静态表情包动起来

    来自Meta的研究人员推出了AI视频生成模型Animated Stickers,它可以让普通表情包图片“动”起来。这项技术的核心是利用先进的文本到图像(Text-to-Image)模型,通过添加时间层...
    新技术# AI视频生成模型# Animated Stickers# 表情包
    2年前
    05990
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Grok

    Grok

    Grok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。
    Invisible Studio

    Invisible Studio

    Invisible Studio 不只是一个 AI 工具集,而是一个为短视频时代量身定制的生产操作系统。它融合了五年社交数据洞察、全球化动画经验与前沿生成式 AI 技术,为企业提供了一种可持续、可扩展、低风险的内容创作路径。
    Server Survival 

    Server Survival 

    Server Survival 是一款互动式 3D 云架构模拟游戏。在这里,你不是在写 Terraform,而是在实时对抗流量海啸——构建弹性基础设施,抵御 DDoS 攻击,平衡预算与声誉,只为多撑一秒。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    查看完整榜单