SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 958 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    大型多模态模型VideoGLaMM:专为用户提供的文本输入进行视频中细粒度像素级定位而设计

    大型多模态模型VideoGLaMM:专为用户提供的文本输入进行视频中细粒度像素级定位而设计

    视频与文本之间的细粒度对齐是一个具有挑战性的问题,因为视频中存在复杂的空间和时间动态。现有的基于视频的大型多模态模型(LMMs)虽然可以处理基本对话,但在视频中进行精确的像素级定位方面存在困难。 大型...
    新技术# VideoGLaMM# 大型多模态模型
    1年前
    05790
    可控图像到视频生成框架SG-I2V:用于在图像到视频的生成过程中实现对象和相机运动的控制

    可控图像到视频生成框架SG-I2V:用于在图像到视频的生成过程中实现对象和相机运动的控制

    图像到视频生成技术已经取得了显著的进步,能够生成高度逼真的视频。然而,调整生成视频中的特定元素,如物体运动或相机移动,通常需要繁琐的试错过程,例如使用不同的随机种子重新生成视频。最近的技术通过微调预训...
    新技术# SG-I2V# 视频生成
    1年前
    04730
    DimensionX框架:从单张图像生成逼真的3D和4D场景,实现对空间和时间维度的可控生成

    DimensionX框架:从单张图像生成逼真的3D和4D场景,实现对空间和时间维度的可控生成

    香港科技大学、清华大学和生数科技的研究人员推出一个名为DimensionX的框架,它能够从单张图片生成高逼真度的3D和4D场景,并且通过视频扩散技术(video diffusion)实现对空间和时间维...
    新技术# DimensionX
    1年前
    07600
    新的4位量化方法SVDQuant:通过量化权重和激活值为4位来加速模型的推理过程,同时保持图像质量

    新的4位量化方法SVDQuant:通过量化权重和激活值为4位来加速模型的推理过程,同时保持图像质量

    扩散模型因其在生成高保真图像方面的卓越能力而备受关注。然而,这些模型在内存和计算方面的要求非常高,这限制了它们在消费级设备和需要低延迟的应用中的部署。为了解决这些问题,研究人员提出了多种技术,包括后训...
    新技术# SVDQuant# 量化方法
    1年前
    07660
    ReCapture:从单个用户视频生成具有新颖摄像机轨迹的新视频

    ReCapture:从单个用户视频生成具有新颖摄像机轨迹的新视频

    最近的视频建模技术取得了显著进展,使得在生成的视频中可以控制摄像机轨迹。然而,这些方法通常不能直接应用于用户提供的视频,因为这些视频不是由视频模型生成的。为了解决这一问题,谷歌和新加坡国立大学的研究人...
    新技术# ReCapture# 摄像机轨迹
    1年前
    04020
    专门为I2V模型量身定制的大规模数据集TIP-I2V:包含了超过170万独特的用户提供的文本和图像提示

    专门为I2V模型量身定制的大规模数据集TIP-I2V:包含了超过170万独特的用户提供的文本和图像提示

    AI驱动的视频生成领域正在迅速发展,图像到视频(I2V)模型因其视觉一致性和增强的可控性而处于前沿。然而,一个显著的差距一直存在:缺乏专门的数据集来理解图像到视频提示的独特需求。为了填补这一空白,悉尼...
    新技术# TIP-I2V# 图生视频模型
    1年前
    03320
    基于注意力的运动扩散模型MotionCLR:无需额外的训练实现人体动作生成

    基于注意力的运动扩散模型MotionCLR:无需额外的训练实现人体动作生成

    人类运动生成的交互式编辑是一个重要的研究领域,特别是在动画、游戏和虚拟现实等应用中。然而,现有的运动扩散模型存在两个主要问题: 缺乏对词级文本-运动对应关系的显式建模:这限制了模型在细粒度编辑方面的能...
    新技术# MotionCLR# 人体动作生成
    1年前
    03390
    GenXD:能够从任意数量的条件图像生成高质量的3D和4D场景

    GenXD:能够从任意数量的条件图像生成高质量的3D和4D场景

    近年来,2D视觉生成取得了显著成功,但在3D和4D生成方面,由于缺乏大规模数据和有效的模型设计,实际应用仍然具有挑战性。新加坡国立大学和微软的研究人员推出了一个名为GenXD的模型,它能够从任意数量的...
    新技术# 3D# GenXD
    1年前
    05950
    3D纹理生成框架MVPaint:根据文本指令自动生成高分辨率、无缝的3D纹理

    3D纹理生成框架MVPaint:根据文本指令自动生成高分辨率、无缝的3D纹理

    腾讯PCG、上海人工智能实验室、南洋理工大学S-Lab和清华大学的研究人员推出3D纹理生成框架MVPaint,它能够根据文本指令自动生成高分辨率、无缝的3D纹理。MVPaint通过同步多视图扩散模型来...
    新技术# 3D纹理生成# MVPaint
    1年前
    04560
    AutoVFX:基于自然语言指令的自动视觉效果生成

    AutoVFX:基于自然语言指令的自动视觉效果生成

    现代视觉效果(VFX)软件使熟练的艺术家能够创造出几乎任何图像,但创作过程仍然费力、复杂,并且对普通用户来说基本上是不可访问的。为了简化这一过程,伊利诺伊大学厄巴纳-香槟分校的研究人员提出了AutoV...
    新技术# AutoVFX
    1年前
    06760
    苹果推出基于最优传输理论的通用框架ACT:用于控制大型生成模型的生成过程

    苹果推出基于最优传输理论的通用框架ACT:用于控制大型生成模型的生成过程

    大型生成模型(如大语言模型LLMs和文本到图像扩散模型T2Is)的能力不断增强,但其日益广泛的部署也引发了对可靠性和安全性的担忧。为了解决这些问题,研究人员提出了通过引导模型激活来控制模型生成的方法...
    新技术# ACT# 大语言模型# 文生图模型
    1年前
    05050
    Meta推出创新方案AdaCache(自适应缓存):不进行额外训练的情况下加速视频生成

    Meta推出创新方案AdaCache(自适应缓存):不进行额外训练的情况下加速视频生成

    视频生成是AI研究的一个热点领域,特别是在生成时间上一致、高保真的视频方面。这一领域涉及创建在帧之间保持视觉连贯性并在时间上保留细节的视频序列。近年来,机器学习模型,尤其是扩散变换器(DiTs),已成...
    新技术# AdaCache# Meta AI# 自适应缓存
    1年前
    03950
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    OpenMAIC

    新OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    查看完整榜单