SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 947 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    条件对比对齐CCA:提升自回归(AR)视觉生成模型的样本质量

    条件对比对齐CCA:提升自回归(AR)视觉生成模型的样本质量

    无分类器引导(CFG)是提高视觉生成模型样本质量的关键技术。然而,在自回归(AR)多模态生成中,CFG 在语言和视觉内容之间引入了设计不一致性,这与统一不同模态的视觉 AR 设计理念相矛盾。受语言模型...
    新技术# CCA# 条件对比对齐# 视觉生成模型
    1年前
    06000
    用于生成同步语音体态手势视频的框架 TANGO:把新的语音和已有的视频动作结合起来,生成高保真的、与语音同步的身体手势视频

    用于生成同步语音体态手势视频的框架 TANGO:把新的语音和已有的视频动作结合起来,生成高保真的、与语音同步的身体手势视频

    东京大学和Cyber​​Agent 人工智能实验室的研究人员推出了一个用于生成同步语音体态手势视频的框架 TANGO,它可以从一个几分钟长的参考视频(里面有一个说话者的身体动作)和目标语音音频出发,生...
    新技术# TANGO# 同步语音体态手势
    1年前
    04040
    Fluid: 基于连续令牌和随机顺序生成的文生图模型

    Fluid: 基于连续令牌和随机顺序生成的文生图模型

    在视觉领域,自回归模型的扩展并没有像在大语言模型中那样取得显著的成功。为了探索这一问题,Google DeepMind 和麻省理工学院的研究人员进行了一项研究,重点探讨了两个关键因素:模型是使用离散还...
    新技术# Fluid:# 文生图模型
    1年前
    04610
    图上下文感知扩散模型InstructG2I:根据多模态属性图(MMAGs)生成图像

    图上下文感知扩散模型InstructG2I:根据多模态属性图(MMAGs)生成图像

    多模态属性图(MMAGs)作为一种强大的数据结构,能够以图的形式表示实体之间的关系,节点中包含图像和文本信息。尽管 MMAGs 在图像生成中具有多功能性,但它们受到的关注相对较少。这是因为 MMAGs...
    新技术# InstructG2I# 多模态属性图
    1年前
    06090
    图像编辑新方法DICE:用于改进离散扩散模型在可控编辑任务中的性能

    图像编辑新方法DICE:用于改进离散扩散模型在可控编辑任务中的性能

    罗格斯大学、麻省理工学院-IBM Watson AI 实验室、谷歌 DeepMind、NEC 美国实验室、纽约大学、 沃尔玛全球科技公司、澳大利亚国立大学和 麻省理工学院阿灵顿分校的研究人员推出图像编...
    新技术# DICE# 图像编辑
    1年前
    05970
    FSC-CLIP:提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能

    FSC-CLIP:提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能

    韩国科学技术院、世宗大学和汉阳大学的研究人员推出FSC-CLIP,提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能。简单来说,就是让计算机能够更好地理...
    新技术# FSC-CLIP# 多模态
    1年前
    05030
    长视频生成新方法PA-VDM:现有的模型可以自然地扩展为自回归视频扩散模型,而无需改变架构

    长视频生成新方法PA-VDM:现有的模型可以自然地扩展为自回归视频扩散模型,而无需改变架构

    石溪大学和Adob​​e 研究中心的研究人员推出长视频生成新方法PA-VDM,它能够生成高质量的长视频。在解释这个主题时,我们可以把它想象成一个能够将静态图片或简短视频变成长篇电影的魔法盒子。 项目主...
    新技术# PA-VDM# 长视频生成
    1年前
    06070
    基于Transformer架构的新型图像生成模型DART:根据文本描述生成高质量的图像

    基于Transformer架构的新型图像生成模型DART:根据文本描述生成高质量的图像

    苹果和香港中文大学的研究人员推出新型图像生成模型DART,这个模型的目标是让计算机能够根据文本描述生成高质量的图像。DART是一个基于Transformer架构的模型,它在非马尔可夫框架内统一了自回归...
    新技术# DART# Transformer架构# 图像生成模型
    1年前
    06920
    BroadWay:提升文生视频模型的质量,而且不需要额外的训练

    BroadWay:提升文生视频模型的质量,而且不需要额外的训练

    上海交通大学、中国科学技术大学、香港中文大学和上海人工智能实验室的研究人员推出为BroadWay,它能够提升文生视频模型的质量,而且不需要额外的训练。这就像是给视频生成模型安装了一个“涡轮增压器”,让...
    新技术# BroadWay# 文生视频模型
    1年前
    07700
    视频插值方法ViBiDSampler:专门用于在两个关键帧之间生成平滑且逼真的中间帧,从而创建流畅的视频过渡效果

    视频插值方法ViBiDSampler:专门用于在两个关键帧之间生成平滑且逼真的中间帧,从而创建流畅的视频过渡效果

    韩国科学技术研究院推出视频插值方法ViBiDSampler,这种方法专门用于在两个关键帧之间生成平滑且逼真的中间帧,从而创建流畅的视频过渡效果。ViBiDSampler引入了一种新颖的双向采样策略,以...
    新技术# ViBiDSampler# 视频插值方法
    1年前
    04250
    一种在推理阶段组合定制扩散模型的新方法TweedieMix:用于改进多概念融合在基于扩散的图像和视频生成中的应用

    一种在推理阶段组合定制扩散模型的新方法TweedieMix:用于改进多概念融合在基于扩散的图像和视频生成中的应用

    KRAFTON和韩国科学技术研究院AI研究生院的研究人员推出一种在推理阶段组合定制扩散模型的新方法TweedieMix,它用于改进多概念融合在基于扩散的图像和视频生成中的应用。简单来说,Tweedie...
    新技术# TweedieMix# 扩散模型
    1年前
    04760
    字节推出TextToon:在实时环境中将真人的头像转换成卡通化的形象

    字节推出TextToon:在实时环境中将真人的头像转换成卡通化的形象

    罗切斯特大学和字节跳动的研究人员推出TextToon,它能够在实时环境中将真人的头像转换成卡通化的形象。就像魔法一样,这项技术可以把你从视频中的头像变成你想要的任何卡通风格,比如美国漫画风格、皮克斯动...
    新技术# TextToon# 字节跳动
    1年前
    05780
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    OpenClaw 一键部署工具

    OpenClaw 一键部署工具

    OpenClaw 一键部署工具是一款专为 AI 爱好者和开发者打造的私人 AI 助手一键部署工具,支持多模型、多消息渠道接入,提供图形界面与命令行两种部署方式,无需复杂的手动配置,就能快速搭建属于自己的跨平台 AI 助手,兼具灵活性与实用性。
    MimiClaw

    MimiClaw

    MimiClaw 把一块小小的 ESP32-S3 开发板变成你的私人 AI 助理。插上 USB 供电,连上 WiFi,通过 Telegram 跟它对话 — 它能处理你丢给它的任何任务,还会随时间积累本地记忆不断进化 — 全部跑在一颗拇指大小的芯片上。
    查看完整榜单