SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 959 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    微软亚洲研究院推出新型视频自编码器VidTwin

    微软亚洲研究院推出新型视频自编码器VidTwin

    北京大学、微软亚洲研究院和香港中文大学(深圳)的研究人员推出一种新型视频自编码器(Video Autoencoder,简称Video AE),名为VidTwin。VidTwin的核心创新在于将视频分解...
    新技术# VidTwin# 视频自编码器
    1年前
    02990
    MotiF:通过引导模型关注更多运动区域来改善文本对齐和运动生成

    MotiF:通过引导模型关注更多运动区域来改善文本对齐和运动生成

    文本-图像到视频生成(TI2V) 是一项旨在根据文本描述从静态图像生成动态视频的技术。尽管这一领域已经取得了一定进展,但现有方法在生成与文本提示良好对齐的视频时仍面临显著挑战,尤其是在指定运动细节方面...
    新技术# MotiF# 图生视频
    1年前
    03670
    无需图像数据的方法Diff-Instruct*(DI*):用于构建符合人类偏好的一步式文生图模型,同时保持生成高度逼真图像的能力

    无需图像数据的方法Diff-Instruct*(DI*):用于构建符合人类偏好的一步式文生图模型,同时保持生成高度逼真图像的能力

    北京大学、小红书和卡内基梅隆大学的研究人员推出一种无需图像数据的方法Diff-Instruct*(DI*),用于构建符合人类偏好的一步式文本到图像生成模型,同时保持生成高度逼真图像的能力。研究团队将人...
    新技术# Diff-Instruct*(DI*)# 一步式文生图模型
    1年前
    02910
    基于扩散模型的创新框架3DHM:根据单张图片和目标3D动作序列来生成人物动画

    基于扩散模型的创新框架3DHM:根据单张图片和目标3D动作序列来生成人物动画

    加州大学伯克利分校的研究人员提出了一种创新的框架——3DHM(3D Human Motion),该框架利用扩散模型从单张图像中根据给定的目标3D运动序列生成高质量的人物动画。这一方法的核心在于解耦人体...
    新技术# 3DHM# 人物动画
    1年前
    02560
    3D对象生成和重建流程PartGen:可以从文本、图像或非结构化3D对象开始,生成由多个有意义部分组成的3D对象

    3D对象生成和重建流程PartGen:可以从文本、图像或非结构化3D对象开始,生成由多个有意义部分组成的3D对象

    近年来,文本到3D生成器和3D扫描仪技术取得了显著进展,能够生成高质量的3D资产。然而,这些资产通常由单一的融合表示组成,例如隐式神经场、高斯混合或网格,缺乏任何有用的结构。这种单一表示方式使得资产难...
    新技术# 3D对象# PartGen
    1年前
    04720
    基于图像扩散先验的深度修复模型DepthLab:从单张图像中生成完整的3D场景

    基于图像扩散先验的深度修复模型DepthLab:从单张图像中生成完整的3D场景

    香港大学、香港科技大学、蚂蚁集团、阿尔托大学和通义实验室的研究人员推出DepthLab ,它是一个基于图像扩散先验的深度修复模型,用于从单张图像中生成完整的3D场景。DepthLab旨在解决深度数据中...
    新技术# 3D场景# DepthLab# 深度修复模型
    1年前
    03180
    新型视频变分自编码器VideoVAE+:实现高保真视频编码

    新型视频变分自编码器VideoVAE+:实现高保真视频编码

    随着多媒体内容的增长,学习一个鲁棒的视频变分自编码器(VAE)对于减少视频冗余和促进高效视频生成变得越来越重要。直接将图像VAE应用于单个帧可能会导致时间不一致性和次优压缩率,因为缺乏对时间维度的有效...
    新技术# VideoVAE+
    1年前
    02710
    蒸馏解码DD:用于加速自回归(AR)模型在图像和文本生成任务中的采样步骤

    蒸馏解码DD:用于加速自回归(AR)模型在图像和文本生成任务中的采样步骤

    自回归(AR)模型在文本和图像生成方面取得了显著的进展,但其逐令牌生成的过程导致了速度上的局限性。为了克服这一问题,清华大学和微软研究院的研究人员提出了一项雄心勃勃的任务:能否将预训练的AR模型调整为...
    新技术# 自回归模型# 蒸馏解码
    1年前
    02670
    前馈单图像人体重建框架IDOL:能够从单张图片中快速创建出高保真度、可动画化的3D全身人物形象

    前馈单图像人体重建框架IDOL:能够从单张图片中快速创建出高保真度、可动画化的3D全身人物形象

    南京大学、中国科学院深圳先进技术研究院、清华大学、腾讯和深圳理工大学的研究人员共同推出了IDOL(Image-based Detailed and Optimized Avatar),这是一个具有快速...
    新技术# IDOL
    1年前
    02810
    新型视频建模架构TRecViT:结合了时间序列处理和空间特征提取的优势,以提高视频理解任务的性能

    新型视频建模架构TRecViT:结合了时间序列处理和空间特征提取的优势,以提高视频理解任务的性能

    Google DeepMind发布一种新型的视频建模架构TRecViT(Temporal Recurrent Video Transformer)。这个架构是一种混合模型,它结合了时间序列处理和空间特...
    新技术# TRecViT# 视频建模架构
    1年前
    03300
    类卷积局部注意力策略CLEAR:提升FLUX模型在高分辨率图像生成任务中的效率

    类卷积局部注意力策略CLEAR:提升FLUX模型在高分辨率图像生成任务中的效率

    在图像生成领域,DiT(Diffusion Transformer)架构凭借其卓越的表现成为前沿技术。然而,该架构的核心——用于建模令牌间关系的注意力机制,由于其计算复杂度为二次方,导致在处理高分辨率...
    新技术# CLEAR# FLUX模型
    1年前
    03660
    并行自回归视觉生成方法PAR:通过并行生成视觉标记来加速图像和视频的生成过程,同时确保生成质量

    并行自回归视觉生成方法PAR:通过并行生成视觉标记来加速图像和视频的生成过程,同时确保生成质量

    自回归模型在视觉生成领域表现出色,但其逐个预测token的顺序过程导致了推理速度较慢。为了解决这一问题,香港大学、字节跳动和北京大学的研究人员提出了一种简单而有效的并行自回归视觉生成方法——PAR(P...
    新技术# PAR
    1年前
    03340
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    悟空

    悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    AI朝廷

    AI朝廷

    AI 朝廷 (AI Court) 是一个基于 OpenClaw 框架的多 Agent 协作系统。它创造性地将中国明代三省六部制映射为现代 AI 组织架构。
    Impeccable

    Impeccable

    由pbakaus推出的 Impeccable 技能升级包,正是为了解决这一痛点而生。它不仅仅是一个简单的提示词集合,而是一套包含 17 条专业指令、7 大领域参考文件 以及 精心策划的“反模式” 的设计系统。它的目标很明确:对抗大模型的通用偏见,助你实现真正“无可挑剔”的前端设计。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    查看完整榜单