SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 943 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    RollingDepth:将单图像深度估计转化为高效的视频深度估计

    RollingDepth:将单图像深度估计转化为高效的视频深度估计

    随着大型基础模型的发展和合成训练数据的广泛应用,单图像深度估计技术取得了显著进展,这重新激发了研究者对视频深度估计的兴趣。然而,直接将单图像深度估计器应用于视频每一帧的方法存在明显缺陷,如时间连续性忽...
    新技术# RollingDepth# 视频深度
    1年前
    02880
    VISTA框架:通过视频时空增强技术,提升对长时和高分辨率视频的理解能力

    VISTA框架:通过视频时空增强技术,提升对长时和高分辨率视频的理解能力

    滑铁卢大学、矢量研究所和零一万物的研究人员推出VISTA框架,旨在通过视频时空增强技术,提升对长时和高分辨率视频的理解能力。VISTA通过从现有的视频-字幕数据集中合成长时和高分辨率视频指令对,以增强...
    新技术# VISTA
    1年前
    02720
    新型音频驱动的肖像视频生成方法FLOAT:基于流匹配生成模型,能够在给定单一源图像和音频的情况下生成具有自然说话动作的肖像视频

    新型音频驱动的肖像视频生成方法FLOAT:基于流匹配生成模型,能够在给定单一源图像和音频的情况下生成具有自然说话动作的肖像视频

    DeepBrain和韩国科学技术院人工智能研究生院的研究人员推出新型音频驱动的肖像视频生成方法FLOAT,它基于流匹配生成模型,能够在给定单一源图像和音频的情况下生成具有自然说话动作的肖像视频。FLO...
    新技术# FLOAT# 肖像视频
    1年前
    02470
    FlowChef:利用矢量场动力学的统一受控图像生成框架

    FlowChef:利用矢量场动力学的统一受控图像生成框架

    扩散模型(DMs)在照片真实感图像生成、图像编辑和逆问题解决方面取得了显著进展,这主要归功于无分类器引导和图像反演技术。然而,校正流模型(RFMs)在这类任务中的潜力尚未得到充分开发。现有的基于DM的...
    新技术# FlowChef# 图像生成框架
    1年前
    03160
    新型自回归视觉语言基础模型X-Prompt:实现通用的上下文内图像生成

    新型自回归视觉语言基础模型X-Prompt:实现通用的上下文内图像生成

    随着大语言模型(LLMs)在自然语言处理领域的广泛应用,基于LLMs的自动回归视觉语言模型(VLMs)在文本到图像生成方面也取得了显著进展。然而,上下文学习——即通过少量示例来指导模型执行特定任务的能...
    新技术# X-Prompt
    1年前
    02440
    轻量级的新型视频对象分割和跟踪模型EfficientTAM

    轻量级的新型视频对象分割和跟踪模型EfficientTAM

    随着视频对象分割(VOS)和跟踪任务的日益复杂,现有的强大工具如SAM 2虽然在准确性和功能上表现出色,但其高计算复杂性限制了其在移动设备等资源受限环境中的应用。为了解决这一问题,Meta和南洋理工大...
    新技术# EfficientTAM# 视频对象分割# 跟踪模型
    1年前
    02480
    零一万物推出Presto:专为生成长达15秒的高质量视频而设计的新型扩散模型

    零一万物推出Presto:专为生成长达15秒的高质量视频而设计的新型扩散模型

    零一万物团队隆重推出Presto——一款专为生成长达15秒的高质量视频而设计的新型扩散模型。Presto旨在克服长时间视频生成中保持场景多样性和一致性的挑战,通过引入分段交叉注意力(Segmented...
    新技术# Presto# 零一万物
    1年前
    02850
    新型自编码器WF-VAE:为提高潜在视频扩散模型中视频变分自编码器的性能而设计

    新型自编码器WF-VAE:为提高潜在视频扩散模型中视频变分自编码器的性能而设计

    北大-兔展AIGC联合实验室推出新型自编码器WF-VAE,此编码器与开源视频生成项目Open-Sora Plan相关,它是为了提高潜在视频扩散模型(Latent Video Diffusion Mod...
    新技术# WF-VAE# 自编码器
    1年前
    02850
    针对DiT模型的深度修剪方法TinyFusion:通过端到端学习去除冗余层,以减少模型的参数量和提高推理效率

    针对DiT模型的深度修剪方法TinyFusion:通过端到端学习去除冗余层,以减少模型的参数量和提高推理效率

    新加坡国立大学的研究人员推出一个针对DiT模型的深度修剪方法TinyFusion,旨在通过端到端学习去除冗余层,以减少模型的参数量和提高推理效率。DiT架构在图像生成领域展现出了卓越的能力,但通常伴随...
    新技术# DiT模型# TinyFusion
    1年前
    02780
    先进跟踪系统TAPTRv3:用于在长视频中跟踪任意点

    先进跟踪系统TAPTRv3:用于在长视频中跟踪任意点

    IDEA Research、华南理工大学、清华大学和香港科技大学的研究人员推出先进跟踪系统TAPTRv3,它专门设计用于在长视频中跟踪任意点。TAPTRv3是建立在TAPTRv2基础上的,主要目标是提...
    新技术# TAPTRv3
    1年前
    02990
    PSHuman:利用多视角扩散模型先验的3D人体建模新框架

    PSHuman:利用多视角扩散模型先验的3D人体建模新框架

    真实感3D人体建模在虚拟现实、增强现实、电影制作、游戏开发和医疗等领域具有广泛的应用。尽管单目全身重建方法取得了显著进展,但它们通常依赖于前视图和/或预测的后视图,这导致了由于问题的病态性质和复杂的自...
    新技术# 3D人体建模# PSHuman
    1年前
    03140
    可控人类图像生成的新框架BootComp:特别适用于包含多个参考服装的情况

    可控人类图像生成的新框架BootComp:特别适用于包含多个参考服装的情况

    韩国科学技术研究院和OMNIOUS.AI的研究人员提出了BootComp——一种用于可控人类图像生成的新框架,特别适用于包含多个参考服装的情况。这一创新解决了训练数据获取的主要瓶颈,即为每个人类主体收...
    新技术# BootComp
    1年前
    02970
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    NotebookLM

    NotebookLM

    NotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。
    AIMedia

    AIMedia

    AIMedia 是一款全自动托管式 AI 媒体系统。它集热点抓取、AI 创作、图像生成、跨平台发布于一体,目标是实现“无人值守”的内容生产流水线。
    查看完整榜单