SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    新技术

    共 939 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    高质量、人工奖励数据集HumanEdit:专为指令引导的图像编辑而设计

    高质量、人工奖励数据集HumanEdit:专为指令引导的图像编辑而设计

    天工AI、新加坡国立大学、北京大学和南洋理工大学的研究人员推出高质量、人工奖励数据集HumanEdit,专为指令引导的图像编辑而设计。该数据集通过开放式语言指令实现精确和多样化的图像操作,旨在解决现有...
    新技术# HumanEdit
    1年前
    02890
    基于视觉特征的对抗性引导方法NegToMe:利用参考图像或其他批次图像的视觉特征,而非仅依赖文本提示,来更有效地排除不希望的视觉元素

    基于视觉特征的对抗性引导方法NegToMe:利用参考图像或其他批次图像的视觉特征,而非仅依赖文本提示,来更有效地排除不希望的视觉元素

    华盛顿大学、澳大利亚国立大学和艾伦人工智能研究所的研究人员提出了一种新的对抗性引导方法——负标记合并(Negative Token Merging, NegToMe)。该方法旨在通过直接利用参考图像或...
    新技术# NegToMe# 负标记合并
    1年前
    02790
    实时交互式3D场景生成的创新框架WonderWorld:能够以低延迟的方式指定场景内容和布局,并实时查看创建的场景

    实时交互式3D场景生成的创新框架WonderWorld:能够以低延迟的方式指定场景内容和布局,并实时查看创建的场景

    MIT和斯坦福的研究人员联合推出了WonderWorld,这是一个用于交互式3D场景生成的创新框架。它使用户能够以低延迟的方式指定场景内容和布局,并实时查看创建的场景。WonderWorld的主要目标...
    新技术# 3D场景# WonderWorld
    1年前
    02510
    文本到图像模型的数据归因:识别在生成新图像过程中最具影响力的训练图像

    文本到图像模型的数据归因:识别在生成新图像过程中最具影响力的训练图像

    卡内基梅隆大学、Adob​​e 研究和加州大学伯克利分校的研究人员发布论文,论文的主题是关于文本到图像模型的数据归因(Data Attribution for Text-to-Image Models...
    新技术# 文生图模型
    1年前
    02810
    SOLAMI:为3D自主角色提供社交智能,使其能够感知、理解和与人类进行交互。

    SOLAMI:为3D自主角色提供社交智能,使其能够感知、理解和与人类进行交互。

    人类是社会性动物,赋予3D自主角色类似的社会智能,使其能够感知、理解和与人类互动,是一个开放且基础的问题。商汤科技研究院和南洋理工大学的研究人员提出了SOLAMI,这是第一个端到端的社交视觉-语言-动...
    新技术# SOLAMI
    1年前
    02670
    SPOTLIGHT:通过扩散模型实现对虚拟对象插入图像时的光影控制

    SPOTLIGHT:通过扩散模型实现对虚拟对象插入图像时的光影控制

    拉瓦尔大学、Depix Technologies和芝加哥丰田技术学院的研究人员推出SPOTLIGHT,它用于通过扩散模型实现对虚拟对象插入图像时的光影控制。这种方法的核心在于,通过指定对象的期望阴影...
    新技术# SPOTLIGHT
    1年前
    02890
    无需额外训练的缓存策略TeaCache:加速视频扩散模型的推理过程,同时保持生成视频的视觉质量

    无需额外训练的缓存策略TeaCache:加速视频扩散模型的推理过程,同时保持生成视频的视觉质量

    扩散模型(DMs)作为视频生成的基本骨干,因其顺序去噪的性质而面临低推理速度的挑战。尽管先前的方法通过在均匀选择的时间步长上缓存和重用模型输出来加速模型,但这种策略忽略了模型输出在不同时间步长上的差异...
    新技术# TeaCache# 缓存策略
    12个月前
    04630
    新型采样引导方法STG:提升视频扩散模型生成质量

    新型采样引导方法STG:提升视频扩散模型生成质量

    扩散模型(DMs)近年来在生成高质量图像、视频和3D内容方面取得了显著进展。然而,现有的采样引导技术如分类器引导(CFG)虽然提高了生成内容的质量,但也带来了多样性和运动性的下降。自动引导方法虽然缓解...
    新技术# STG
    1年前
    02920
    RollingDepth:将单图像深度估计转化为高效的视频深度估计

    RollingDepth:将单图像深度估计转化为高效的视频深度估计

    随着大型基础模型的发展和合成训练数据的广泛应用,单图像深度估计技术取得了显著进展,这重新激发了研究者对视频深度估计的兴趣。然而,直接将单图像深度估计器应用于视频每一帧的方法存在明显缺陷,如时间连续性忽...
    新技术# RollingDepth# 视频深度
    1年前
    02880
    VISTA框架:通过视频时空增强技术,提升对长时和高分辨率视频的理解能力

    VISTA框架:通过视频时空增强技术,提升对长时和高分辨率视频的理解能力

    滑铁卢大学、矢量研究所和零一万物的研究人员推出VISTA框架,旨在通过视频时空增强技术,提升对长时和高分辨率视频的理解能力。VISTA通过从现有的视频-字幕数据集中合成长时和高分辨率视频指令对,以增强...
    新技术# VISTA
    1年前
    02720
    新型音频驱动的肖像视频生成方法FLOAT:基于流匹配生成模型,能够在给定单一源图像和音频的情况下生成具有自然说话动作的肖像视频

    新型音频驱动的肖像视频生成方法FLOAT:基于流匹配生成模型,能够在给定单一源图像和音频的情况下生成具有自然说话动作的肖像视频

    DeepBrain和韩国科学技术院人工智能研究生院的研究人员推出新型音频驱动的肖像视频生成方法FLOAT,它基于流匹配生成模型,能够在给定单一源图像和音频的情况下生成具有自然说话动作的肖像视频。FLO...
    新技术# FLOAT# 肖像视频
    1年前
    02470
    FlowChef:利用矢量场动力学的统一受控图像生成框架

    FlowChef:利用矢量场动力学的统一受控图像生成框架

    扩散模型(DMs)在照片真实感图像生成、图像编辑和逆问题解决方面取得了显著进展,这主要归功于无分类器引导和图像反演技术。然而,校正流模型(RFMs)在这类任务中的潜力尚未得到充分开发。现有的基于DM的...
    新技术# FlowChef# 图像生成框架
    1年前
    03020
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    新人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    PDF Craft

    新PDF Craft

    PDF Craft是一款专注于扫描版书籍 PDF 转换的开源工具。它利用 DeepSeek OCR 模型,在本地完成从图像型 PDF 到结构化电子书(如 Markdown 或 EPUB)的全流程处理,无需联网,不依赖大语言模型(LLM),适合对隐私、精度与效率有要求的用户。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    查看完整榜单