SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 947 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    解决图像生成与编辑任务的统一框架UniReal

    解决图像生成与编辑任务的统一框架UniReal

    图像生成和编辑任务在计算机视觉领域中具有广泛的应用,如图像合成、风格迁移、图像修复等。然而,现有的解决方案通常针对特定任务设计,缺乏一个统一的框架来处理多种图像级任务。香港大学和Adobe Resea...
    新技术# UniReal# 图像生成# 图像编辑
    1年前
    02960
    ACDIT:介于自回归模型和扩散模型之间的插值方法,用于处理视觉信息

    ACDIT:介于自回归模型和扩散模型之间的插值方法,用于处理视觉信息

    清华大学和字节跳动的研究人员推出ACDIT,它是一种介于自回归模型和扩散模型之间的插值方法,用于处理视觉信息。ACDIT的核心思想是将自回归建模扩展到块级别,而不是单个文本标记,使得每个块的生成可以基...
    新技术# ACDIT
    1年前
    02730
    苹果推出用于文本和图像条件下的视频生成新方法STIV

    苹果推出用于文本和图像条件下的视频生成新方法STIV

    苹果公司介绍了一个名为STIV(Scalable Text and Image Conditioned Video Generation)的系统,它是一种用于文本和图像条件下的视频生成方法。STIV系...
    新技术# STIV# 苹果
    1年前
    02800
    新型文本到图像生成系统NIRVANA:利用近似缓存技术,高效地服务基于扩散模型的文本到图像生成任务

    新型文本到图像生成系统NIRVANA:利用近似缓存技术,高效地服务基于扩散模型的文本到图像生成任务

    Adobe和伊利诺伊大学厄巴纳-香槟分校的研究人员介绍了一种名为NIRVANA的新型文本到图像生成系统,它利用了一种称为近似缓存(Approximate Caching)的技术,旨在高效地服务基于扩散...
    新技术# NIRVANA# 文生图
    1年前
    03620
    华为诺亚方舟实验室推出多模态大语言模型ILLUME

    华为诺亚方舟实验室推出多模态大语言模型ILLUME

    华为诺亚方舟实验室发布多模态大语言模型ILLUME,旨在无缝集成图像和文本的理解与生成。ILLUME凭借其创新的架构和训练策略,在显著减少预训练所需数据量的同时,达到了最先进的性能。ILLUME基于统...
    新技术# ILLUME# 华为诺亚方舟实验室# 多模态大语言模型
    1年前
    02770
    3DTrajMaster:专注于在视频生成中控制多实体的三维(3D)运动轨迹

    3DTrajMaster:专注于在视频生成中控制多实体的三维(3D)运动轨迹

    香港中文大学、快手科技和浙江大学的研究人员介绍了3DTrajMaster,一个用于多实体3D运动可控视频生成的强大控制器。与传统的2D控制信号相比,3DTrajMaster利用6自由度(6DoF)姿态...
    新技术# 3DTrajMaster# 3D运动轨迹
    1年前
    02710
    端到端的高质量ID一致性人类跳舞视频生成新框架StableAnimator

    端到端的高质量ID一致性人类跳舞视频生成新框架StableAnimator

    近年来,人像动画生成模型在图像和视频领域取得了显著进展,但它们在身份一致性(ID一致性)方面仍然面临挑战。传统的扩散模型虽然能够生成高质量的视频,但在长时间序列中保持人物的身份特征(如面部表情、发型等...
    新技术# StableAnimator# 视频生成框架
    1年前
    02960
    MotionShop:用于视频扩散模型中的零样本(Zero-Shot)运动转移方法,通过混合分数引导(MSG)实现

    MotionShop:用于视频扩散模型中的零样本(Zero-Shot)运动转移方法,通过混合分数引导(MSG)实现

    近年来,扩散模型在图像和视频生成领域取得了显著进展,但在运动迁移任务中,如何将一个视频中的运动模式迁移到另一个视频中,同时保持内容的完整性,仍然是一个具有挑战性的问题。传统的运动迁移方法通常依赖于复杂...
    新技术# MotionShop# MSG
    1年前
    02760
    视觉条件多视图扩散模型See3D:通过大规模互联网视频数据进行训练,从而实现开放世界的3D创作

    视觉条件多视图扩散模型See3D:通过大规模互联网视频数据进行训练,从而实现开放世界的3D创作

    近年来,3D生成模型在图像和视频领域取得了显著进展,但它们通常依赖于有限规模的3D“黄金标签”或2D扩散先验来进行3D内容创作。这种依赖性限制了模型的性能,因为现有的3D数据集规模较小且标注成本高昂...
    新技术# See3D# 多视图扩散模型
    1年前
    03080
    腾讯推出新型视频分词器Divot:统一视频的理解和生成

    腾讯推出新型视频分词器Divot:统一视频的理解和生成

    近年来,大语言模型(LLMs)在图像理解和生成方面取得了显著进展,尤其是在将图像编码为离散标记并结合LLMs进行多模态任务时。然而,将这一成功扩展到视频领域面临着更大的挑战,因为视频不仅包含空间信息...
    新技术# Divot# 视频分词器
    1年前
    03180
    PanoDreamer:从单一图像生成360°的3D全景场景

    PanoDreamer:从单一图像生成360°的3D全景场景

    德克萨斯 A&M 大学、Leia和马克斯普朗克信息学研究所的研究人员推出新型方法PanoDreamer,它能够从单一图像生成360°的3D全景场景。这种方法的核心在于它不是顺序地生成场景,而是...
    新技术# 3D全景场景# PanoDreamer
    1年前
    02600
    多事件视频生成框架MinT:根据一系列文本提示和特定的时间戳生成具有精确时间控制的视频序列

    多事件视频生成框架MinT:根据一系列文本提示和特定的时间戳生成具有精确时间控制的视频序列

    Snap Research、多伦多大学和向量研究所的研究人员推出多事件视频生成框架MinT(Mind the Time),它能够根据一系列文本提示和特定的时间戳生成具有精确时间控制的视频序列。MinT...
    新技术# MinT# 多事件视频生成
    1年前
    02650
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    OpenClaw 一键部署工具

    OpenClaw 一键部署工具

    OpenClaw 一键部署工具是一款专为 AI 爱好者和开发者打造的私人 AI 助手一键部署工具,支持多模型、多消息渠道接入,提供图形界面与命令行两种部署方式,无需复杂的手动配置,就能快速搭建属于自己的跨平台 AI 助手,兼具灵活性与实用性。
    OpenClaw汉化发行版

    OpenClaw汉化发行版

    OpenClaw汉化发行版已上线——不仅将CLI命令行、Dashboard网页控制台全部深度汉化,还能每小时自动同步OpenClaw官方更新,汉化版延迟低于1小时,既保留原版全部功能,又适配国内用户的使用习惯,3步即可完成安装部署,零基础也能快速上手。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    查看完整榜单