SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 947 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    多代理协作框架GENMAC:实现复杂的文本到视频生成,特别是针对组合性文本提示的生成

    多代理协作框架GENMAC:实现复杂的文本到视频生成,特别是针对组合性文本提示的生成

    香港大学、清华大学和微软研究院的研究人员推出多代理协作框架GENMAC,旨在实现复杂的文本到视频生成,特别是针对组合性文本提示的生成。传统的文本到视频生成模型在处理复杂场景时常常面临挑战,例如多个对象...
    新技术# GENMAC# 文生视频
    1年前
    02910
    图像编辑工具SwiftEdit:通过简单的文本提示实现快速的图像编辑

    图像编辑工具SwiftEdit:通过简单的文本提示实现快速的图像编辑

    VinAI 研究中心、越南科技大学邮电研究所的研究人员推出图像编辑工具SwiftEdit,它能够通过简单的文本提示实现快速的图像编辑。SwiftEdit的核心优势在于其极速的编辑能力,能够在0.23秒...
    新技术# SwiftEdit# 图像编辑
    1年前
    03080
    Golden Noise:将随机的高斯噪声转换成能够生成更高质量、与文本提示更匹配的图像的“黄金噪声”

    Golden Noise:将随机的高斯噪声转换成能够生成更高质量、与文本提示更匹配的图像的“黄金噪声”

    香港科技大学(广州)、穆罕默德·本·扎耶德人工智能大学和香港浸会大学的研究人员推出一种名为“Golden Noise for Diffusion Models”的学习框架,旨在提高文生图模型的性能。这...
    新技术# Golden Noise# 黄金噪声
    1年前
    03970
    MEMO:用于生成富有表情的、与音频同步的说话视频的端到端音频驱动肖像动画技术

    MEMO:用于生成富有表情的、与音频同步的说话视频的端到端音频驱动肖像动画技术

    天工 AI、南洋理工大学和新加坡国立大学的研究人员提出了MEMO(Memory-Guided Emotion-Aware Diffusion),这是一种端到端的音频驱动肖像动画方法,旨在生成身份一致且...
    新技术# MEMO# 肖像动画
    1年前
    03470
    LumiNet:利用生成模型和潜在内在表示进行有效光照传输的新架构

    LumiNet:利用生成模型和潜在内在表示进行有效光照传输的新架构

    博世和芝加哥丰田技术研究所的研究人员提出了LumiNet,这是一种创新的光照传输架构,旨在给定一个源图像和一个目标光照图像的情况下,合成一个捕捉目标光照的源场景重照明版本。LumiNet通过两个关键贡...
    新技术# LumiNet# 光照
    1年前
    02720
    端到端的训练框架Mimir:通过大语言模型增强文本到视频生成

    端到端的训练框架Mimir:通过大语言模型增强文本到视频生成

    蚂蚁集团和清华大学的研究人员提出了Mimir,这是一个端到端的训练框架,旨在解决当前视频扩散模型在文本理解方面的不足,并充分利用大语言模型(LLMs)的强大文本处理能力。Mimir通过引入精心设计的标...
    新技术# Mimir# 大语言模型
    1年前
    02920
    Inst-IT:增强大型多模态模型实例级理解能力

    Inst-IT:增强大型多模态模型实例级理解能力

    复旦大学计算机学院、上海创新学院和华为诺亚方舟实验室的研究人员提出了Inst-IT,这是一种通过明确的视觉提示指令调优来增强大型多模态模型(LMMs)实例级理解能力的解决方案。尽管现有的LMMs在整体...
    新技术# Inst-IT# 多模态模型
    1年前
    03020
    CleanDIFT:从大规模预训练的扩散模型中提取无噪声、与时间步无关的通用特征表示

    CleanDIFT:从大规模预训练的扩散模型中提取无噪声、与时间步无关的通用特征表示

    慕尼黑大学的研究人员推出一种名为CleanDIFT的新方法,用于从大规模预训练的扩散模型中提取无噪声、与时间步无关的通用特征表示。这种方法特别针对的是,以往在使用扩散模型提取特征时需要向图像添加噪声...
    新技术# CleanDIFT
    1年前
    05420
    从单张图片生成3D场景的新型框架MIDI

    从单张图片生成3D场景的新型框架MIDI

    北京航空航天大学、VAST、清华大学和香港大学的研究人员推出新型框架MIDI(Multi-Instance Diffusion),它用于从单张图片生成3D场景。这项技术的核心在于将预训练的图像到3D对...
    新技术# 3D场景# MIDI
    1年前
    02960
    One Shot, One Talk:从单张图像构建全身说话虚拟形象

    One Shot, One Talk:从单张图像构建全身说话虚拟形象

    中国科学技术大学和香港理工大学的研究人员提出了一种名为One Shot, One Talk的新颖流程,旨在解决从单张图像构建全身说话虚拟形象的挑战。该方法解决了两个关键问题:1)复杂的动态建模;2)对...
    新技术# One Shot# One Talk# 虚拟形象
    1年前
    03200
    新型多视图生成新视角合成(NVS)模型NVComposer

    新型多视图生成新视角合成(NVS)模型NVComposer

    香港中文大学、腾讯PCG ARC实验室和北京大学的研究人员推出新型多视图生成新视角合成(NVS)模型NVComposer,它能够从少量未对准的稀疏图像中生成新视角的视图,而无需依赖外部的多视图对齐过程...
    新技术# NVComposer
    1年前
    02950
    Imagine360框架:能够将标准透视视频转换为360°全景视频

    Imagine360框架:能够将标准透视视频转换为360°全景视频

    香港中文大学、上海交通大学、南洋理工大学和上海人工智能实验室的研究人员推出Imagine360框架,它能够将标准透视视频转换为360°全景视频,从而为用户提供全方位的沉浸式视频体验。Imagine36...
    新技术# Imagine360# 全景视频
    1年前
    03660
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    OpenClaw 一键部署工具

    OpenClaw 一键部署工具

    OpenClaw 一键部署工具是一款专为 AI 爱好者和开发者打造的私人 AI 助手一键部署工具,支持多模型、多消息渠道接入,提供图形界面与命令行两种部署方式,无需复杂的手动配置,就能快速搭建属于自己的跨平台 AI 助手,兼具灵活性与实用性。
    OpenClaw汉化发行版

    OpenClaw汉化发行版

    OpenClaw汉化发行版已上线——不仅将CLI命令行、Dashboard网页控制台全部深度汉化,还能每小时自动同步OpenClaw官方更新,汉化版延迟低于1小时,既保留原版全部功能,又适配国内用户的使用习惯,3步即可完成安装部署,零基础也能快速上手。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    查看完整榜单