SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    新技术

    共 939 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    前馈单图像人体重建框架IDOL:能够从单张图片中快速创建出高保真度、可动画化的3D全身人物形象

    前馈单图像人体重建框架IDOL:能够从单张图片中快速创建出高保真度、可动画化的3D全身人物形象

    南京大学、中国科学院深圳先进技术研究院、清华大学、腾讯和深圳理工大学的研究人员共同推出了IDOL(Image-based Detailed and Optimized Avatar),这是一个具有快速...
    新技术# IDOL
    1年前
    02710
    新型视频建模架构TRecViT:结合了时间序列处理和空间特征提取的优势,以提高视频理解任务的性能

    新型视频建模架构TRecViT:结合了时间序列处理和空间特征提取的优势,以提高视频理解任务的性能

    Google DeepMind发布一种新型的视频建模架构TRecViT(Temporal Recurrent Video Transformer)。这个架构是一种混合模型,它结合了时间序列处理和空间特...
    新技术# TRecViT# 视频建模架构
    1年前
    03000
    类卷积局部注意力策略CLEAR:提升FLUX模型在高分辨率图像生成任务中的效率

    类卷积局部注意力策略CLEAR:提升FLUX模型在高分辨率图像生成任务中的效率

    在图像生成领域,DiT(Diffusion Transformer)架构凭借其卓越的表现成为前沿技术。然而,该架构的核心——用于建模令牌间关系的注意力机制,由于其计算复杂度为二次方,导致在处理高分辨率...
    新技术# CLEAR# FLUX模型
    1年前
    03410
    并行自回归视觉生成方法PAR:通过并行生成视觉标记来加速图像和视频的生成过程,同时确保生成质量

    并行自回归视觉生成方法PAR:通过并行生成视觉标记来加速图像和视频的生成过程,同时确保生成质量

    自回归模型在视觉生成领域表现出色,但其逐个预测token的顺序过程导致了推理速度较慢。为了解决这一问题,香港大学、字节跳动和北京大学的研究人员提出了一种简单而有效的并行自回归视觉生成方法——PAR(P...
    新技术# PAR
    1年前
    02910
    超分辨率渲染新技术框架DFASRR:实现任意比例的超分辨率渲染,以实时生成高清晰度图像

    超分辨率渲染新技术框架DFASRR:实现任意比例的超分辨率渲染,以实时生成高清晰度图像

    南京大学计算机软件新技术国家重点实验室的研究人员介绍了一种名为“DFASRR(Deep Fourier-based Arbitrary-scale Super-resolution for Real...
    新技术# DFASRR# 超分辨率渲染
    1年前
    03660
    Enhance-A-Video:利用时间注意力温度调整提升DiT架构模型的视频生成质量

    Enhance-A-Video:利用时间注意力温度调整提升DiT架构模型的视频生成质量

    尽管基于DiT架构模型的视频生成技术取得了显著进展,现有模型在捕捉关键细节方面仍面临挑战。为了提高视频质量,视频增强成为一种直观的方法,其主要目标是: 保持帧间一致性:确保相邻帧之间的视觉和语义一致性...
    新技术# CogVideoX-2B# DiT架构模型# Enhance-A-Video
    1年前
    03910
    用于跨模态音频-视频生成的统一框架AV-Link

    用于跨模态音频-视频生成的统一框架AV-Link

    莱斯大学和Snap的研究人员推出统一框架AV-Link,用于跨模态音频-视频生成。AV-Link利用冻结的视频和音频扩散模型的激活来进行时间对齐的跨模态条件生成,这意味着它可以基于视频内容生成与之语义...
    新技术# AV-Link
    1年前
    02740
    新型图像编辑框架PixelMan:基于扩散模型,通过像素操作和生成来实现一致性的对象编辑

    新型图像编辑框架PixelMan:基于扩散模型,通过像素操作和生成来实现一致性的对象编辑

    阿尔伯塔大学电子与计算机工程系、华为技术加拿大公司和华为麒麟解决方案的研究人员推出新型图像编辑框架PixelMan,它基于扩散模型(Diffusion Models, DMs),通过像素操作和生成来实...
    新技术# PixelMan# 图像编辑
    1年前
    03230
    无监督指令驱动图像编辑框架UIP2P:在不需要真实编辑图像数据集的情况下,根据文本指令对图像进行编辑

    无监督指令驱动图像编辑框架UIP2P:在不需要真实编辑图像数据集的情况下,根据文本指令对图像进行编辑

    现有的基于指令的图像编辑方法通常依赖于监督学习,需要包含输入图像、编辑图像和编辑指令的三元组数据集。这些数据集通常通过现有编辑方法或人工标注生成,引入了偏差并限制了模型的泛化能力。为了克服这些挑战,苏...
    新技术# UIP2P# 图像编辑
    1年前
    03480
    Madd模型:通过引入“功能性”概念,旨在根据各种位置提示将任何对象无缝插入任何场景中

    Madd模型:通过引入“功能性”概念,旨在根据各种位置提示将任何对象无缝插入任何场景中

    图像合成是计算机视觉中的一个常见任务,涉及将前景对象无缝集成到背景场景中。传统的图像合成方法通常依赖于人为的编辑或预定义的规则,难以处理前景对象与背景场景之间的复杂相互作用。为了应对这一挑战,哈佛大学...
    新技术# Madd模型# 图像编辑
    1年前
    03430
    用于跨模态演变的通用且简单的框架CrossFlow:可以文本生成图片也可以图片转成文本

    用于跨模态演变的通用且简单的框架CrossFlow:可以文本生成图片也可以图片转成文本

    扩散模型及其泛化(如流匹配)在媒体生成领域取得了显著进展,尤其是在跨模态任务中。传统方法通常从简单的源分布(如高斯噪声)学习到复杂的目标媒体分布,而流匹配的一个关键特性是它不受限于源分布必须是噪声。基...
    新技术# CrossFlow
    1年前
    02460
    LeviTor: 基于深度增强拖动交互的3D轨迹控制图像到视频合成

    LeviTor: 基于深度增强拖动交互的3D轨迹控制图像到视频合成

    在图像到视频合成领域,基于拖动交互的方法因其直观性和易用性而受到广泛关注。然而,现有的2D拖动方法在处理物体的平面外运动时存在模糊性,难以精确控制物体在3D空间中的运动轨迹。为了解决这一问题,南京大学...
    新技术# LeviTor# SVD-XT
    1年前
    02730
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    人生 K 线

    新人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    查看完整榜单