SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    百科

    共 2252 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    Adobe推出Toffee:用于主题驱动的文本到图像生成的高效数据集构建方法

    Adobe推出Toffee:用于主题驱动的文本到图像生成的高效数据集构建方法

    Adobe Research和加州大学圣克鲁斯分校的研究人员推出Toffee系统,它是一个用于主题驱动的文本到图像生成的高效数据集构建方法。简单来说,Toffee能够创建大量的图像和文本对,这些图像能...
    新技术# Adobe Research# Toffee# 数据集
    2年前
    06390
    新型图像压缩技术CMC(模态压缩):利用大型多模态模型来实现图像到文本再到图像的转换,从而在保持图像质量的同时,大幅度减小图像的大小

    新型图像压缩技术CMC(模态压缩):利用大型多模态模型来实现图像到文本再到图像的转换,从而在保持图像质量的同时,大幅度减小图像的大小

    上海交通大学和南洋理工大学的研究人员推出一种新型的图像压缩技术“跨模态压缩”(Cross Modality Compression,简称CMC)。这项技术的核心思想是利用大型多模态模型(Large M...
    新技术# CMC# CMC-Bench# 图像压缩
    2年前
    08300
    扩散模型中“幻觉”(hallucinations)现象:生成了一些在训练数据中从未出现过的样本

    扩散模型中“幻觉”(hallucinations)现象:生成了一些在训练数据中从未出现过的样本

    卡内基梅隆大学和DatalogyAI的研究人员发布论文探讨扩散模型(diffusion models)中“幻觉”(hallucinations)现象,即模型生成了一些在训练数据中从未出现过的样本。这种...
    新技术# 幻觉# 扩散模型
    2年前
    05720
    CFG改进版CFG++:帮助生成与文本描述相匹配的图像

    CFG改进版CFG++:帮助生成与文本描述相匹配的图像

    韩国科学技术院推出新型的图像生成和编辑技术CFG++,这是针对“分类器自由引导”(Classifier-free Guidance,简称CFG)的改进版。CFG是一种在现代文本引导的图像生成模型中使用...
    百科# CFG++# 韩国科学技术院
    2年前
    01,0020
    文生图模型偏好优化方法MaPO(边界感知偏好优化):让计算机在学习生成图像时,能够更好地符合人类的偏好

    文生图模型偏好优化方法MaPO(边界感知偏好优化):让计算机在学习生成图像时,能够更好地符合人类的偏好

    韩国科学技术研究院、Huggingface和高丽大学的研究人员推出一种新的文本到图像扩散模型的偏好优化方法,这种方法被称为“边界感知偏好优化”(Margin-aware Preference Opti...
    新技术# MaPO# 文生图模型# 边界感知偏好优化
    2年前
    08340
    OPPO推出多步潜在一致性模型MLCM:用于加速生成图像

    OPPO推出多步潜在一致性模型MLCM:用于加速生成图像

    OPPO推出多步潜在一致性模型MLCM,它用于加速生成图像的潜在扩散模型(LDMs)。简而言之,MLCM能够快速生成高质量的图像,同时保持较低的计算成本。MLCM仅需2-8步采样即可生成高质量、令人愉...
    新技术# MLCM# OPPO# 多步潜在一致性模型
    2年前
    05690
    建立在多模态大语言模型基础上的统一文本到图像生成和检索框架TIGeR

    建立在多模态大语言模型基础上的统一文本到图像生成和检索框架TIGeR

    来自新加坡国立大学 NExT++ 实验室、南洋理工大学、香港理工大学和哈尔滨工业大学(深圳)的研究人员推出一个统一的文本到图像生成和检索框架TIGeR,这个框架建立在多模态大语言模型(MLLMs)的基...
    新技术# TIGeR# 文生图
    2年前
    07390
    新型图像生成模型家族LlamaGen:将大语言模型(Llama)应用到视觉图像生成领域

    新型图像生成模型家族LlamaGen:将大语言模型(Llama)应用到视觉图像生成领域

    香港大学及字节跳动的研究人员推出新型图像生成模型家族LlamaGen,将大语言模型(Llama)中原用于文本生成的“下一个令牌预测”范式应用到了视觉图像生成领域。LlamaGen是对传统自回归模型在图...
    新技术# LlamaGen# 图像生成# 大语言模型
    2年前
    06580
    图生图新技术pOps:将图像和文本转换为可以相互理解的格式,更好的生成图像

    图生图新技术pOps:将图像和文本转换为可以相互理解的格式,更好的生成图像

    特拉维夫大学和西蒙菲莎大学的研究人员推出图生图新技术pOps(Photo-Inspired Diffusion Operators),它是一种用于生成视觉内容的先进方法。例如,你想要生成一张“在海滩上...
    新技术# pOps# 图生图
    2年前
    06350
    新型文本到视频生成框架VideoTetris:专门设计来解决现有方法在处理复杂场景(如多对象或对象数量动态变化的长视频)生成时面临的挑战

    新型文本到视频生成框架VideoTetris:专门设计来解决现有方法在处理复杂场景(如多对象或对象数量动态变化的长视频)生成时面临的挑战

    来自北京大学和快手科技的研究人员推出新型文本到视频生成框架VideoTetris,此框架专门设计来解决现有方法在处理复杂场景(如多对象或对象数量动态变化的长视频)生成时面临的挑战。VideoTetri...
    新技术# VideoTetris# 北京大学# 快手
    2年前
    09090
    单前向视频生成模型SF-V:通过一次前向传播快速生成高质量、运动连贯的视频

    单前向视频生成模型SF-V:通过一次前向传播快速生成高质量、运动连贯的视频

    Snap和罗格斯大学的研究人员推出新型单步视频生成模型SF-V,此模型的核心特点是能够通过一次前向传播(single forward pass)快速生成高质量、运动连贯的视频,这对于需要实时视频合成和...
    新技术# SF-V# 单前向视频生成模型
    2年前
    07160
    Follow-Your系列新框架Follow-Your-Pose v2:用于于角色图像动画的框架,可以根据一系列的动作信号(比如视频、深度图或姿势序列)生成动画视频

    Follow-Your系列新框架Follow-Your-Pose v2:用于于角色图像动画的框架,可以根据一系列的动作信号(比如视频、深度图或姿势序列)生成动画视频

    来自腾讯混元团队、中山大学、香港科技大学的研究人员推出Follow-Your系列新框架Follow-Your-Pose v2,这是去年发布的Follow-Your-Pose升级版,这是一个用于于角色图...
    新技术# Follow-Your-Pose v2# 动画视频
    2年前
    07720
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    NotebookLM

    NotebookLM

    NotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。
    通义万象

    通义万象

    通义万象是阿里云旗下的图像及视频生成平台,凭借其强大的多模态生成能力,正在引领生成式 AI 的发展。除了传统的文生图能力,通义万象现已支持文生视频、图生视频等多种功能,并在插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化应用中表现出色。
    Hume AI

    Hume AI

    Hume AI 是一家专注于先进 AI 语音技术的研究实验室和技术公司,使命是确保AI的开发服务于人类目标和情感福祉。通过构建能够以共情方式进行交流并学习如何让人们感到快乐的 AI 模型,Hume 正在重新定义语音交互的未来。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    查看完整榜单