SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    百科

    共 2624 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    FSC-CLIP:提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能

    FSC-CLIP:提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能

    韩国科学技术院、世宗大学和汉阳大学的研究人员推出FSC-CLIP,提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能。简单来说,就是让计算机能够更好地理...
    新技术# FSC-CLIP# 多模态
    2年前
    05390
    Face-Adapter:专为预训练扩散模型设计的高效且有效的适配器,用于实现高精度和高保真的面部编辑

    Face-Adapter:专为预训练扩散模型设计的高效且有效的适配器,用于实现高精度和高保真的面部编辑

    来自浙江大学、腾讯、 VIVO和南洋理工大学的研究人员推出Face-Adapter,这是一个专为预训练扩散模型设计的高效且有效的适配器,用于实现高精度和高保真的面部编辑。经过观察,开发人员发现无论是人...
    新技术# Face-Adapter# 适配器# 面部编辑
    2年前
    05390
    RankDPO:提高模型在遵循文本提示和视觉质量方面的表现

    RankDPO:提高模型在遵循文本提示和视觉质量方面的表现

    直接偏好优化(DPO)已成为一种强大的方法,用于将文本到图像(T2I)模型与人类反馈对齐。然而,成功应用DPO需要大量的资源来收集和标注大规模数据集,例如数百万张生成的人类偏好注释的配对图像。此外,随...
    新技术# RankDPO
    1年前
    05380
    创新框架Generative Photomontage:通过组合多个生成的图像来创建他们所需的图像

    创新框架Generative Photomontage:通过组合多个生成的图像来创建他们所需的图像

    卡内基梅隆大学和赖希曼大学的研究人员推出创新框架Generative Photomontage,它使用户能够通过组合多个生成的图像来创建他们所需的图像,这个过程就像是用不同的图像拼贴出一幅全新的画面...
    新技术# Generative Photomontage
    2年前
    05380
    DragAPart:一张图片和加一系列拖动操作作为输入,生成新图片

    DragAPart:一张图片和加一系列拖动操作作为输入,生成新图片

    牛津大学视觉几何小组推出DragAPart,它接收一张图片和一系列拖动操作作为输入,能够生成该物体在新状态下的新图片,且新图片与拖动操作所表达的动作相匹配。与先前主要关注物体重新定位的工作不同,Dra...
    新技术# DragAPart
    2年前
    05350
    Grok 即将推出“任务(Tasks)”功能,支持自动化定期执行

    Grok 即将推出“任务(Tasks)”功能,支持自动化定期执行

    xAI 正在为旗下 AI 模型 Grok 开发一项名为“任务”(Tasks)的新功能。这项功能预计将在 Grok 的下一次模型更新前正式上线,并为用户带来更强大的自动化能力。与 ChatGPT 的自定...
    早报# Grok# 任务
    11个月前
    05340
    多模态统一模型UniMuMo:能够处理文本、音乐和动作(运动)数据,并在这三种模式之间生成内容

    多模态统一模型UniMuMo:能够处理文本、音乐和动作(运动)数据,并在这三种模式之间生成内容

    香港中文大学、华盛顿大学、不列颠哥伦比亚大学、麻省大学阿默斯特分校、 MIT-IBM Watson AI 实验室和思科研究院的研究人员推出多模态统一模型UniMuMo,它能够处理文本、音乐和动作(运动...
    新技术# UniMuMo# 多模态统一模型
    2年前
    05340
    新颖的图生视频方法PhysGen:能够将一张静态图片转换成一段真实感强、物理上可信、时间上连贯的视频

    新颖的图生视频方法PhysGen:能够将一张静态图片转换成一段真实感强、物理上可信、时间上连贯的视频

    伊利诺伊大学香槟分校推出一种新颖的图像到视频生成方法PhysGen,它能够将一张静态图片转换成一段真实感强、物理上可信、时间上连贯的视频。简单来说,就是给定一张图片,比如一个球在斜坡上,PhysGen...
    新技术# PhysGen# 图生视频
    2年前
    05330
    微软推出小型语言模型Phi-3系列:可在手机端运行的大模型

    微软推出小型语言模型Phi-3系列:可在手机端运行的大模型

    微软推出小型语言模型Phi-3系列,它在性能上可以与一些大型模型相媲美,如Mixtral 8x7B和GPT-3.5,但大小却足以部署在手机上。这项技术的创新之处在于其训练数据集,这是phi-2数据集的...
    新技术# Phi-3# 微软
    2年前
    05320
    视频字幕生成模型Video ReCap:能为长达数小时的视频生成多层次的字幕

    视频字幕生成模型Video ReCap:能为长达数小时的视频生成多层次的字幕

    来自北卡罗来纳大学教堂山分校和 Meta AI的研究人员推出视频字幕生成模型Video ReCap,它能够为长达数小时的视频生成多层次的字幕。 这个模型的设计受到了人类行为层次结构的启发,人类行为通常...
    新技术# Video ReCap# 视频字幕生成模型
    2年前
    05320
    开源版风格参考StyleCodes:能够将图像风格表达为一个 20 符号的 base64 代码

    开源版风格参考StyleCodes:能够将图像风格表达为一个 20 符号的 base64 代码

    扩散模型在图像生成方面取得了显著的成功,但如何有效地控制生成图像的风格仍然是一个挑战。虽然使用示例图像可以实现风格控制,但这种方法存在一些不便:示例图像体积较大,不易于分享,且可能涉及隐私问题。为此...
    新技术# Midjourney# StyleCodes# 风格参考
    1年前
    05310
    创新人工智能系统Genie:从单一图像提示生成无限种可玩(即可通过行动控制的)游戏场景

    创新人工智能系统Genie:从单一图像提示生成无限种可玩(即可通过行动控制的)游戏场景

    来自不列颠哥伦比亚大学和Google DeepMind研究人员提出创新人工智能系统Genie,它能够从互联网上的未标记视频数据中学习,生成可交互的虚拟环境。Genie的核心功能是将文本、合成图像、照片...
    新技术# Genie# Google DeepMind
    1年前
    05310
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    同事.skill

    同事.skill

    同事.skill 是一款创新工具。它不仅能提取离职同事的技术规范和工作经验,更能通过飞书消息、钉钉文档、微信聊天记录等“数字足迹”,还原其性格特质、沟通风格甚至“甩锅”技巧。
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    MaxClaw

    MaxClaw

    Minimax 正式宣布对其 AI 智能体平台进行重大升级,推出 探索专家(Expert) 2.0 与 MaxClaw 两大核心功能。此次更新不仅大幅降低了专业智能体的创建门槛,更通过云端化部署解决了 OpenClaw 长期存在的“落地难”问题,标志着 AI 智能体从“极客玩具”向“大众生产力工具”的跨越。
    waoo

    waoo

    waoowaoo AI 影视 Studio 是一款基于 AI 技术的短剧/漫画视频制作工具,支持从小说文本自动生成分镜、角色、场景,并制作成完整视频。
    查看完整榜单