SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    百科

    共 2227 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    条件对比对齐CCA:提升自回归(AR)视觉生成模型的样本质量

    条件对比对齐CCA:提升自回归(AR)视觉生成模型的样本质量

    无分类器引导(CFG)是提高视觉生成模型样本质量的关键技术。然而,在自回归(AR)多模态生成中,CFG 在语言和视觉内容之间引入了设计不一致性,这与统一不同模态的视觉 AR 设计理念相矛盾。受语言模型...
    新技术# CCA# 条件对比对齐# 视觉生成模型
    1年前
    05720
    动态视频模型DynamiCrafter:为静态图片添加动画效果

    动态视频模型DynamiCrafter:为静态图片添加动画效果

    来自香港中文大学、腾讯人工智能实验室、北京大学的研究人员推出动态视频模型DynamiCrafter,它是一个利用视频扩散模型(Video Diffusion Models)来为静态图片添加动画效果的工...
    新技术# DynamiCrafter# 视频模型
    2年前
    05710
    字节推出TextToon:在实时环境中将真人的头像转换成卡通化的形象

    字节推出TextToon:在实时环境中将真人的头像转换成卡通化的形象

    罗切斯特大学和字节跳动的研究人员推出TextToon,它能够在实时环境中将真人的头像转换成卡通化的形象。就像魔法一样,这项技术可以把你从视频中的头像变成你想要的任何卡通风格,比如美国漫画风格、皮克斯动...
    新技术# TextToon# 字节跳动
    1年前
    05700
    TextCraftor:通过微调文本编码器来提高文本到图像生成模型的性能,使得生成的图像更加精确地反映文本描述的内容

    TextCraftor:通过微调文本编码器来提高文本到图像生成模型的性能,使得生成的图像更加精确地反映文本描述的内容

    来自Snap和美国东北大学的研究人员推出文本编码器TextCraftor,它通过微调文本编码器来提高文本到图像生成模型的性能,使得生成的图像更加精确地反映文本描述的内容。这种方法减少了对大量数据集的依...
    新技术# TextCraftor# 文本编码器
    2年前
    05700
    个性化图像生成RealCustom:理解你的描述,并生成符合你要求的个性化图像

    个性化图像生成RealCustom:理解你的描述,并生成符合你要求的个性化图像

    来自中科大、字节跳动的研究人员推出新型文本到图像定制方法RealCustom。这种方法的目标是为给定的主题生成受文本驱动的图像,这在内容创作领域具有革命性的意义。 项目主页 论文地址 想象一下,你想要...
    新技术# RealCustom# 个性化图像生成
    2年前
    05700
    阿里推出新型音频驱动的虚拟角色视频生成方法EMO2:同时生成富有表现力的面部表情和手势动作

    阿里推出新型音频驱动的虚拟角色视频生成方法EMO2:同时生成富有表现力的面部表情和手势动作

    阿里在去年2月推出新型音频驱动的虚拟角色视频生成方法EMO,近期又发布了 EMO2,它能够同时生成富有表现力的面部表情和手势动作。该方法特别关注于语音伴随手势(co-speech gestures)的...
    新技术# EMO2
    11个月前
    05690
    LightIt:实现图像生成过程中的显式光照控制

    LightIt:实现图像生成过程中的显式光照控制

    来自慕尼黑大学和Adobe Research的研究人员推出LightIt,它能够对由扩散模型生成的图像进行明确的照明控制。研究人员提出了将生成过程与阴影和法线图相结合的新思路。在光照建模方面,采用了单...
    新技术# LightIt# 光照控制
    2年前
    05690
    3D重建技术MVD2:针对多视角扩散图像进行高效的三维形状重建

    3D重建技术MVD2:针对多视角扩散图像进行高效的三维形状重建

    来自清华大学和微软亚洲研究院的研究人员推出新型3D重建技术MVD2,它专门针对多视角扩散(Multiview Diffusion,简称MVD)图像进行高效的三维形状重建。 论文地址 MVD是一种新兴的...
    新技术# 3D重建技术# MVD2
    2年前
    05690
    3D内容生成框架DreamGaussian:提高基于图像和文本生成3D模型的效率和质量

    3D内容生成框架DreamGaussian:提高基于图像和文本生成3D模型的效率和质量

    来自南洋理工大学、百度和北京大学的研究人员推出3D内容生成框架DreamGaussian,专门设计用于提高基于优化方法创建三维(3D)模型的效率和质量。该框架旨在解决当前从图像或文本快速生成高质量3D...
    新技术# 3D内容生成框架# DreamGaussian
    2年前
    05670
    扩散模型中“幻觉”(hallucinations)现象:生成了一些在训练数据中从未出现过的样本

    扩散模型中“幻觉”(hallucinations)现象:生成了一些在训练数据中从未出现过的样本

    卡内基梅隆大学和DatalogyAI的研究人员发布论文探讨扩散模型(diffusion models)中“幻觉”(hallucinations)现象,即模型生成了一些在训练数据中从未出现过的样本。这种...
    新技术# 幻觉# 扩散模型
    2年前
    05660
    Adobe MAX大会亮点!Adobe旗下多个应用发布新功能,视频生成功能已上线Adobe Premiere Pro和Adobe Firefly

    Adobe MAX大会亮点!Adobe旗下多个应用发布新功能,视频生成功能已上线Adobe Premiere Pro和Adobe Firefly

    今天,在美国迈阿密海滩举行的Adobe MAX大会上,Adobe发布了最新版本的Adobe Creative Cloud,其中包括超过100项新功能,涵盖了Photoshop、Illustrator...
    早报# Adobe Firefly# Adobe MAX# Adobe Premiere Pro
    1年前
    05650
    新型高效微调方法SaRA:用于提升预训练扩散模型(SD 1.5、SD 2.0和SD 3.0)在新任务上的表现

    新型高效微调方法SaRA:用于提升预训练扩散模型(SD 1.5、SD 2.0和SD 3.0)在新任务上的表现

    上海交通大学和腾讯优图实验室的研究人员推出新型高效微调方法SaRA,用于提升预训练扩散模型在新任务上的表现。扩散模型是一种强大的生成模型,能够生成图像、视频和3D模型等。但这些模型通常需要大量的参数...
    新技术# SaRA# 微调模型
    1年前
    05650
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Disco

    Disco

    谷歌推出浏览器 AI 实验产品 Disco,由 Gemini 大模型驱动,能直接把你打开的浏览器标签页,变成量身定制的交互式网页应用 —— 也就是谷歌口中的 GenTabs。不用写一行代码,只需自然语言提示,就能打造专属于你的效率工具。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    DiffRhythm(谛韵)

    DiffRhythm(谛韵)

    DiffRhythm(中文名“谛韵”)是由西北工业大学音频、语音与语言处理研究组(ASLP Lab)和香港中文大学(深圳)深圳大数据研究院联合开发的新型端到端全长度歌曲生成模型。基于潜扩散(Latent Diffusion)技术,DiffRhythm 能够快速生成包含人声和伴奏的完整歌曲,解决了现有音乐生成方法的诸多局限性。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    查看完整榜单