SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 958 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    MotiF:通过引导模型关注更多运动区域来改善文本对齐和运动生成

    MotiF:通过引导模型关注更多运动区域来改善文本对齐和运动生成

    文本-图像到视频生成(TI2V) 是一项旨在根据文本描述从静态图像生成动态视频的技术。尽管这一领域已经取得了一定进展,但现有方法在生成与文本提示良好对齐的视频时仍面临显著挑战,尤其是在指定运动细节方面...
    新技术# MotiF# 图生视频
    1年前
    03670
    无需图像数据的方法Diff-Instruct*(DI*):用于构建符合人类偏好的一步式文生图模型,同时保持生成高度逼真图像的能力

    无需图像数据的方法Diff-Instruct*(DI*):用于构建符合人类偏好的一步式文生图模型,同时保持生成高度逼真图像的能力

    北京大学、小红书和卡内基梅隆大学的研究人员推出一种无需图像数据的方法Diff-Instruct*(DI*),用于构建符合人类偏好的一步式文本到图像生成模型,同时保持生成高度逼真图像的能力。研究团队将人...
    新技术# Diff-Instruct*(DI*)# 一步式文生图模型
    1年前
    02890
    基于扩散模型的创新框架3DHM:根据单张图片和目标3D动作序列来生成人物动画

    基于扩散模型的创新框架3DHM:根据单张图片和目标3D动作序列来生成人物动画

    加州大学伯克利分校的研究人员提出了一种创新的框架——3DHM(3D Human Motion),该框架利用扩散模型从单张图像中根据给定的目标3D运动序列生成高质量的人物动画。这一方法的核心在于解耦人体...
    新技术# 3DHM# 人物动画
    1年前
    02550
    3D对象生成和重建流程PartGen:可以从文本、图像或非结构化3D对象开始,生成由多个有意义部分组成的3D对象

    3D对象生成和重建流程PartGen:可以从文本、图像或非结构化3D对象开始,生成由多个有意义部分组成的3D对象

    近年来,文本到3D生成器和3D扫描仪技术取得了显著进展,能够生成高质量的3D资产。然而,这些资产通常由单一的融合表示组成,例如隐式神经场、高斯混合或网格,缺乏任何有用的结构。这种单一表示方式使得资产难...
    新技术# 3D对象# PartGen
    1年前
    04710
    基于图像扩散先验的深度修复模型DepthLab:从单张图像中生成完整的3D场景

    基于图像扩散先验的深度修复模型DepthLab:从单张图像中生成完整的3D场景

    香港大学、香港科技大学、蚂蚁集团、阿尔托大学和通义实验室的研究人员推出DepthLab ,它是一个基于图像扩散先验的深度修复模型,用于从单张图像中生成完整的3D场景。DepthLab旨在解决深度数据中...
    新技术# 3D场景# DepthLab# 深度修复模型
    1年前
    03180
    新型视频变分自编码器VideoVAE+:实现高保真视频编码

    新型视频变分自编码器VideoVAE+:实现高保真视频编码

    随着多媒体内容的增长,学习一个鲁棒的视频变分自编码器(VAE)对于减少视频冗余和促进高效视频生成变得越来越重要。直接将图像VAE应用于单个帧可能会导致时间不一致性和次优压缩率,因为缺乏对时间维度的有效...
    新技术# VideoVAE+
    1年前
    02710
    蒸馏解码DD:用于加速自回归(AR)模型在图像和文本生成任务中的采样步骤

    蒸馏解码DD:用于加速自回归(AR)模型在图像和文本生成任务中的采样步骤

    自回归(AR)模型在文本和图像生成方面取得了显著的进展,但其逐令牌生成的过程导致了速度上的局限性。为了克服这一问题,清华大学和微软研究院的研究人员提出了一项雄心勃勃的任务:能否将预训练的AR模型调整为...
    新技术# 自回归模型# 蒸馏解码
    1年前
    02580
    前馈单图像人体重建框架IDOL:能够从单张图片中快速创建出高保真度、可动画化的3D全身人物形象

    前馈单图像人体重建框架IDOL:能够从单张图片中快速创建出高保真度、可动画化的3D全身人物形象

    南京大学、中国科学院深圳先进技术研究院、清华大学、腾讯和深圳理工大学的研究人员共同推出了IDOL(Image-based Detailed and Optimized Avatar),这是一个具有快速...
    新技术# IDOL
    1年前
    02790
    新型视频建模架构TRecViT:结合了时间序列处理和空间特征提取的优势,以提高视频理解任务的性能

    新型视频建模架构TRecViT:结合了时间序列处理和空间特征提取的优势,以提高视频理解任务的性能

    Google DeepMind发布一种新型的视频建模架构TRecViT(Temporal Recurrent Video Transformer)。这个架构是一种混合模型,它结合了时间序列处理和空间特...
    新技术# TRecViT# 视频建模架构
    1年前
    03290
    类卷积局部注意力策略CLEAR:提升FLUX模型在高分辨率图像生成任务中的效率

    类卷积局部注意力策略CLEAR:提升FLUX模型在高分辨率图像生成任务中的效率

    在图像生成领域,DiT(Diffusion Transformer)架构凭借其卓越的表现成为前沿技术。然而,该架构的核心——用于建模令牌间关系的注意力机制,由于其计算复杂度为二次方,导致在处理高分辨率...
    新技术# CLEAR# FLUX模型
    1年前
    03640
    并行自回归视觉生成方法PAR:通过并行生成视觉标记来加速图像和视频的生成过程,同时确保生成质量

    并行自回归视觉生成方法PAR:通过并行生成视觉标记来加速图像和视频的生成过程,同时确保生成质量

    自回归模型在视觉生成领域表现出色,但其逐个预测token的顺序过程导致了推理速度较慢。为了解决这一问题,香港大学、字节跳动和北京大学的研究人员提出了一种简单而有效的并行自回归视觉生成方法——PAR(P...
    新技术# PAR
    1年前
    03340
    超分辨率渲染新技术框架DFASRR:实现任意比例的超分辨率渲染,以实时生成高清晰度图像

    超分辨率渲染新技术框架DFASRR:实现任意比例的超分辨率渲染,以实时生成高清晰度图像

    南京大学计算机软件新技术国家重点实验室的研究人员介绍了一种名为“DFASRR(Deep Fourier-based Arbitrary-scale Super-resolution for Real...
    新技术# DFASRR# 超分辨率渲染
    1年前
    04040
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    OpenMAIC

    新OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    TapNow

    TapNow

    TapNow是一个面向创作者的专业级 AI 视觉内容平台,支持从脚本撰写、分镜头设计到高保真成片输出的完整流程,单人即可在 1–3 天内完成传统需 4–6 周的影视级项目。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    查看完整榜单