SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    百科

    共 2252 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    新型文本到音频生成模型Tango 2:提高音频生成的质量和与文本的匹配度

    新型文本到音频生成模型Tango 2:提高音频生成的质量和与文本的匹配度

    新加坡科技设计大学和密歇根大学的研究人员推出新型文本到音频生成模型Tango 2,它通过直接偏好优化(Direct Preference Optimization, DPO)来提高音频生成的质量和与文...
    新技术# Tango 2# 文本到音频生成模型
    2年前
    06230
    基于指令的高质量图像编辑数据集HQ-Edit

    基于指令的高质量图像编辑数据集HQ-Edit

    加州大学圣克鲁斯分校的研究人员推出高质量数据集HQ-Edit,它专门用于基于指令的图像编辑任务。例如,你有一张图片,想要根据某些具体的指令来修改它,比如改变背景、调整物体的颜色或者添加一些新元素。HQ...
    新技术# HQ-Edit# 图像编辑数据集
    2年前
    08650
    Video2Game:自动将现实世界的视频转化为真实且具备交互性的游戏环境

    Video2Game:自动将现实世界的视频转化为真实且具备交互性的游戏环境

    来自伊利诺伊大学厄巴纳-香槟分校、上海交通大学和康奈尔大学的研究人员推出Video2Game,它可以将任何真实世界的视频转换成一个实时、互动、真实感强且与浏览器兼容的游戏环境。例如,你有一段拍摄街道的...
    新技术# Video2Game# 游戏
    2年前
    06670
    字节跳动推出数据集COCONut,专门针对图像分割任务

    字节跳动推出数据集COCONut,专门针对图像分割任务

    字节跳动推出数据集COCONut,它是对现有的COCO数据集的现代化升级,专门针对图像分割任务。图像分割是计算机视觉中的一个核心问题,它的目标是将图像中的每个像素正确地分类到不同的实例或类别中,此数据...
    新技术# COCONut# 图像分割# 字节跳动
    2年前
    06700
    Scaling (Down) CLIP:从数据、架构和训练策略三个维度对CLIP进行了详细探究

    Scaling (Down) CLIP:从数据、架构和训练策略三个维度对CLIP进行了详细探究

    来自加州大学圣克鲁斯分校和Google Deepmind的研究人员发布论文探讨如何有效地缩减对比语言-图像预训练(CLIP)模型的规模,以适应计算资源有限的情况。研究团队从数据、架构和训练策略三个维度...
    新技术# CLIP模型
    2年前
    05570
    图像分割技术OpenTrans:提高开放词汇表分割(OVS)的效率

    图像分割技术OpenTrans:提高开放词汇表分割(OVS)的效率

    来自北京交通大学和西蒙菲莎大学的研究人员推出OpenTrans,它旨在提高开放词汇表分割(Open-Vocabulary Segmentation, OVS)的效率。OVS是一种图像分割技术,能够识别...
    新技术# OpenTrans# 图像分割技术
    2年前
    06210
    ControlNet++:通过显式优化生成图像与条件控制之间的像素级循环一致性,来改进可控生成过程

    ControlNet++:通过显式优化生成图像与条件控制之间的像素级循环一致性,来改进可控生成过程

    中佛罗里达大学计算机视觉研究中心和字节跳动的研究人员推出ControlNet++,这是一种新方法,通过显式优化生成图像与条件控制之间的像素级循环一致性,来改进可控生成过程。具体来说,对于给定的条件控制...
    新技术# controlnet# 可控性# 文生图模型
    2年前
    08630
    在文生图模型中应用Guidance技术的方法

    在文生图模型中应用Guidance技术的方法

    来自阿尔托大学和英伟达的研究人员发布论文探讨了在文生图模型中应用指导(Guidance)技术的方法,作者通过实验表明,限制指导区间的方法在ImageNet-512数据集上将FID(一种衡量图像质量的指...
    科普# CFG Scale# Guidance
    2年前
    08250
    新型框架PhysAvatar:将物理模拟和逆向渲染技术相结合,创建逼真的3D虚拟人物

    新型框架PhysAvatar:将物理模拟和逆向渲染技术相结合,创建逼真的3D虚拟人物

    来自斯坦福大学、卡内基梅隆大学、谷歌和慕尼黑工业大学的研究人员推出新型框架PhysAvatar,它将物理模拟和逆向渲染技术相结合,能够自动从多视角视频数据中估计人体的形状和外观,以及衣物面料的物理参数...
    新技术# 3D虚拟人物# PhysAvatar
    2年前
    07180
    SpaTracker:通过在三维空间中跟踪像素点,能够在各种复杂场景中实现精确的运动估计

    SpaTracker:通过在三维空间中跟踪像素点,能够在各种复杂场景中实现精确的运动估计

    来自浙江大学、加州大学伯克利分校和蚂蚁集团的研究人员推出SpatialTracker,这是一种能够在三维空间中跟踪任意二维像素点的方法。它使用单目深度估计器将2D像素提升到3D,使用三平面表示法有效表...
    新技术# SpaTracker# 三维空间
    2年前
    06500
    一致性模型的强化学习RLCM:提升图像生成的速度和质量

    一致性模型的强化学习RLCM:提升图像生成的速度和质量

    来自康奈尔大学的研究团队推出RLCM(Reinforcement Learning for Consistency Models, 一致性模型的强化学习),RLCM提供了一种有效的方法来提升图像生成的...
    新技术# RLCM# 一致性模型
    2年前
    07220
    attribute-control:对文生图模型生成的图像中的特定属性进行精细控制

    attribute-control:对文生图模型生成的图像中的特定属性进行精细控制

    来自慕尼黑工业大学的研究人员推出attribute-control,它能够对文本到图像(T2I)模型生成的图像中的特定属性进行精细控制。 项目主页 GitHub Demo 开发团队发现,在常用的基于t...
    新技术# attribute-control# 文生图模型# 精细控制
    2年前
    01,0630
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    查看完整榜单