SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 958 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    大型重建模型Real3D:利用单视图真实世界图像进行3D重建

    大型重建模型Real3D:利用单视图真实世界图像进行3D重建

    德克萨斯大学奥斯汀分校的研究人员推出Real3D,它是首个能够使用单视图真实世界图像进行训练的大型重建模型(Large Reconstruction Model,简称LRM)。Real3D通过自训练框...
    新技术# 3D模型# Real3D
    2年前
    05970
    新型图像生成模型EMMA:能够接受多模态提示,并生成高质量的图像

    新型图像生成模型EMMA:能够接受多模态提示,并生成高质量的图像

    南洋理工大学和腾讯的研究人员推出新型图像生成模型EMMA,它基于最先进的文本到图像(T2I)扩散模型ELLA,能够接受多模态提示(multi-modal prompts),并生成高质量的图像。简单来说...
    新技术# ELLA# EMMA# 图像生成
    2年前
    08840
    基准测试CommonsensenT2I:用于评估文生图模型(T2I)生成符合现实生活常识的图像的能力

    基准测试CommonsensenT2I:用于评估文生图模型(T2I)生成符合现实生活常识的图像的能力

    宾夕法尼亚大学和加州大学圣塔芭芭拉分校的研究人员推出基准测试CommonsensenT2I,用于评估文生图模型(T2I)生成符合现实生活常识的图像的能力。简单来说,就是研究这些模型是否能够根据文字描述...
    新技术# CommonsensenT2I# 基准测试# 文生图模型
    2年前
    05710
    Adobe推出Toffee:用于主题驱动的文本到图像生成的高效数据集构建方法

    Adobe推出Toffee:用于主题驱动的文本到图像生成的高效数据集构建方法

    Adobe Research和加州大学圣克鲁斯分校的研究人员推出Toffee系统,它是一个用于主题驱动的文本到图像生成的高效数据集构建方法。简单来说,Toffee能够创建大量的图像和文本对,这些图像能...
    新技术# Adobe Research# Toffee# 数据集
    2年前
    06680
    新型图像压缩技术CMC(模态压缩):利用大型多模态模型来实现图像到文本再到图像的转换,从而在保持图像质量的同时,大幅度减小图像的大小

    新型图像压缩技术CMC(模态压缩):利用大型多模态模型来实现图像到文本再到图像的转换,从而在保持图像质量的同时,大幅度减小图像的大小

    上海交通大学和南洋理工大学的研究人员推出一种新型的图像压缩技术“跨模态压缩”(Cross Modality Compression,简称CMC)。这项技术的核心思想是利用大型多模态模型(Large M...
    新技术# CMC# CMC-Bench# 图像压缩
    2年前
    08770
    扩散模型中“幻觉”(hallucinations)现象:生成了一些在训练数据中从未出现过的样本

    扩散模型中“幻觉”(hallucinations)现象:生成了一些在训练数据中从未出现过的样本

    卡内基梅隆大学和DatalogyAI的研究人员发布论文探讨扩散模型(diffusion models)中“幻觉”(hallucinations)现象,即模型生成了一些在训练数据中从未出现过的样本。这种...
    新技术# 幻觉# 扩散模型
    2年前
    06300
    文生图模型偏好优化方法MaPO(边界感知偏好优化):让计算机在学习生成图像时,能够更好地符合人类的偏好

    文生图模型偏好优化方法MaPO(边界感知偏好优化):让计算机在学习生成图像时,能够更好地符合人类的偏好

    韩国科学技术研究院、Huggingface和高丽大学的研究人员推出一种新的文本到图像扩散模型的偏好优化方法,这种方法被称为“边界感知偏好优化”(Margin-aware Preference Opti...
    新技术# MaPO# 文生图模型# 边界感知偏好优化
    2年前
    08590
    OPPO推出多步潜在一致性模型MLCM:用于加速生成图像

    OPPO推出多步潜在一致性模型MLCM:用于加速生成图像

    OPPO推出多步潜在一致性模型MLCM,它用于加速生成图像的潜在扩散模型(LDMs)。简而言之,MLCM能够快速生成高质量的图像,同时保持较低的计算成本。MLCM仅需2-8步采样即可生成高质量、令人愉...
    新技术# MLCM# OPPO# 多步潜在一致性模型
    2年前
    05840
    建立在多模态大语言模型基础上的统一文本到图像生成和检索框架TIGeR

    建立在多模态大语言模型基础上的统一文本到图像生成和检索框架TIGeR

    来自新加坡国立大学 NExT++ 实验室、南洋理工大学、香港理工大学和哈尔滨工业大学(深圳)的研究人员推出一个统一的文本到图像生成和检索框架TIGeR,这个框架建立在多模态大语言模型(MLLMs)的基...
    新技术# TIGeR# 文生图
    2年前
    07470
    新型图像生成模型家族LlamaGen:将大语言模型(Llama)应用到视觉图像生成领域

    新型图像生成模型家族LlamaGen:将大语言模型(Llama)应用到视觉图像生成领域

    香港大学及字节跳动的研究人员推出新型图像生成模型家族LlamaGen,将大语言模型(Llama)中原用于文本生成的“下一个令牌预测”范式应用到了视觉图像生成领域。LlamaGen是对传统自回归模型在图...
    新技术# LlamaGen# 图像生成# 大语言模型
    2年前
    06760
    图生图新技术pOps:将图像和文本转换为可以相互理解的格式,更好的生成图像

    图生图新技术pOps:将图像和文本转换为可以相互理解的格式,更好的生成图像

    特拉维夫大学和西蒙菲莎大学的研究人员推出图生图新技术pOps(Photo-Inspired Diffusion Operators),它是一种用于生成视觉内容的先进方法。例如,你想要生成一张“在海滩上...
    新技术# pOps# 图生图
    2年前
    06680
    新型文本到视频生成框架VideoTetris:专门设计来解决现有方法在处理复杂场景(如多对象或对象数量动态变化的长视频)生成时面临的挑战

    新型文本到视频生成框架VideoTetris:专门设计来解决现有方法在处理复杂场景(如多对象或对象数量动态变化的长视频)生成时面临的挑战

    来自北京大学和快手科技的研究人员推出新型文本到视频生成框架VideoTetris,此框架专门设计来解决现有方法在处理复杂场景(如多对象或对象数量动态变化的长视频)生成时面临的挑战。VideoTetri...
    新技术# VideoTetris# 北京大学# 快手
    2年前
    09840
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    Web Rewind

    新Web Rewind

    Opera Web Rewind(网络时光倒带)是一个交互式互联网档案库,旨在带领用户穿越过去三十年的数字历史,重温那些让我们连接在一起的标志性时刻、古怪迷因和集体记忆。
    查看完整榜单