SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 943 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    混合数据专家MoDE:通过聚类方法来提升对比语言-图像预训练(CLIP)的性能

    混合数据专家MoDE:通过聚类方法来提升对比语言-图像预训练(CLIP)的性能

    来自Meta、哥伦比亚大学、纽约大学和华盛顿大学的研究人员推出机器学习系统MoDE(Mixture of Data Experts,混合数据专家),它通过聚类方法来提升对比语言-图像预训练(CLIP...
    新技术# CLIP# MoDE# 混合数据专家
    2年前
    06040
    ConsistentID:生成个性化人像图像时保持高度的面部身份(ID)一致性

    ConsistentID:生成个性化人像图像时保持高度的面部身份(ID)一致性

    来自 中山大学深圳校区、中山大学珠海校区、联想研究院和阿联酋起源人工智能研究院推出ConsistentID,它能够在生成个性化人像图像时保持高度的面部身份(ID)一致性。ConsistentID的核心...
    新技术# ConsistentID# 个性化人像
    2年前
    01,1120
    谷歌推出基于问答的自动评估指标Gecko,用于评估文生图模型的性能

    谷歌推出基于问答的自动评估指标Gecko,用于评估文生图模型的性能

    谷歌推出基于问答的自动评估指标Gecko2K,用于评估文生图模型的性能。文生图模型生成的图像并不总是能够完全符合文本中的所有细节。因此,评估这些模型生成的图像与文本描述的匹配程度是一个重要的研究问题...
    新技术# Gecko# Gecko2K# 自动评估
    2年前
    06640
    采样调节器AlignYouSteps:优化采样步骤,从而提高生成图像的细节和质量

    采样调节器AlignYouSteps:优化采样步骤,从而提高生成图像的细节和质量

    英伟达、多伦多大学和矢量研究所的研究人员推出新的采样调节器AlignYouSteps(调整步伐),用于优化采样步骤,从而提高生成图像的细节和质量。这是一种通用且原则性的方法,用于优化扩散模型的采样计划...
    新技术# AlignYouSteps# 英伟达# 采样调节器
    2年前
    08920
    无需调整的高分辨率框架HiDiffusion:只需添加一行代码即可提高扩散模型(Stable Diffusion)在生成高分辨率图像方面的能力和效率

    无需调整的高分辨率框架HiDiffusion:只需添加一行代码即可提高扩散模型(Stable Diffusion)在生成高分辨率图像方面的能力和效率

    旷视科技与字节跳动的研究人员推出新型框架HiDiffusion,只需添加一行代码即可提高扩散模型(Stable Diffusion)在生成高分辨率图像方面的能力和效率。现有的扩散模型在生成超出训练时所...
    新技术# HiDiffusion# Stable Diffusion# 高分辨率框架
    2年前
    07530
    微软推出小型语言模型Phi-3系列:可在手机端运行的大模型

    微软推出小型语言模型Phi-3系列:可在手机端运行的大模型

    微软推出小型语言模型Phi-3系列,它在性能上可以与一些大型模型相媲美,如Mixtral 8x7B和GPT-3.5,但大小却足以部署在手机上。这项技术的创新之处在于其训练数据集,这是phi-2数据集的...
    新技术# Phi-3# 微软
    2年前
    05240
    虚拟服装试穿技术IDM-VTON:根据一个人的图片和一件衣服的图片,生成这个人穿上这件衣服的图像

    虚拟服装试穿技术IDM-VTON:根据一个人的图片和一件衣服的图片,生成这个人穿上这件衣服的图像

    来自韩国科学技术院和OMNIOUS.AI的研究人员推出虚拟服装试穿技术IDM-VTON,该技术能够根据分别描绘人物和服装的图像对,渲染出人物穿着精选服装的视觉效果。虚拟试穿是一种计算机视觉技术,它可以...
    新技术# IDM-VTON# 虚拟服装试穿# 虚拟试穿
    2年前
    08190
    多概念定制技术MultiBooth:根据用户的文本描述生成包含多个特定元素的图像

    多概念定制技术MultiBooth:根据用户的文本描述生成包含多个特定元素的图像

    清华大学和Meta的研究人员推出新颖且高效的多概念定制技术MultiBooth,此技术用于从文本生成图像时实现多概念定制。简单来说,MultiBooth能够根据用户的文本描述生成包含多个特定元素的图像...
    新技术# MultiBooth# 多概念定制技术
    2年前
    07730
    腾讯推出多模态基础模型SEED-X:结合视觉和语言理解的能力,可以处理和生成各种类型的数据,包括图像和文本

    腾讯推出多模态基础模型SEED-X:结合视觉和语言理解的能力,可以处理和生成各种类型的数据,包括图像和文本

    腾讯AI实验室和ARC实验室共同开发的多模态基础模型SEED-X,这是一个先进的人工智能系统,它结合了视觉和语言理解的能力,可以处理和生成各种类型的数据,包括图像和文本。简单来说,SEED-X就像一个...
    新技术# SEED-X# 多模态基础模型
    2年前
    05600
    基于物理的交互式3D对象动态生成方法PhysDreamer:利用视频生成技术实现与3D物体进行物理交互

    基于物理的交互式3D对象动态生成方法PhysDreamer:利用视频生成技术实现与3D物体进行物理交互

    来自麻省理工学院、斯坦福大学、 哥伦比亚大学和康奈尔大学的研究人员推出PhysDreamer系统,这是一个基于物理的交互式3D对象动态生成方法。PhysDreamer能够使静态的3D对象通过视频生成模...
    新技术# 3D对象# PhysDreamer
    2年前
    04810
    多模态大语言模型Groma:具备精细化和定位化的视觉感知能力

    多模态大语言模型Groma:具备精细化和定位化的视觉感知能力

    来自香港大学和字节跳动的研究人员推出多模态大语言模型Groma,它具备精细化和定位化的视觉感知能力。Groma不仅能够理解整个图像的内容,还能处理区域级别的任务,比如区域字幕(region capti...
    新技术# Groma# 多模态大语言模型
    2年前
    06500
    微软亚洲研究院推出新框架VASA-1:基于一张静态图片和一个语音音频片段,实时生成逼真的会说话的面孔

    微软亚洲研究院推出新框架VASA-1:基于一张静态图片和一个语音音频片段,实时生成逼真的会说话的面孔

    微软亚洲研究院推出新框架VASA-1,它可以根据单张静态图像和语音音频片段,生成具有吸引力的视觉情感技能(VAS)的虚拟角色栩栩如生的说话面孔。这个技术的核心在于它能够精确地捕捉到人脸的微妙动态和头部...
    新技术# VASA-1
    2年前
    04820
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    NotebookLM

    NotebookLM

    NotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    Fastino

    Fastino

    位于帕洛阿尔托的初创公司Fastino选择了一条不同的路径:通过开发小巧、高效的任务特定语言模型(TLMs),为开发者和企业提供了更精准、更经济的解决方案。
    查看完整榜单