百科 | 第46页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

FSC-CLIP：提升预训练视觉和语言模型（VLMs）在理解图像和文字组合任务上的能力，同时保持在多模态任务上的性能

韩国科学技术院、世宗大学和汉阳大学的研究人员推出FSC-CLIP，提升预训练视觉和语言模型（VLMs）在理解图像和文字组合任务上的能力，同时保持在多模态任务上的性能。简单来说，就是让计算机能够更好地理...

新技术 # FSC-CLIP # 多模态

2年前

05390

Face-Adapter：专为预训练扩散模型设计的高效且有效的适配器，用于实现高精度和高保真的面部编辑

来自浙江大学、腾讯、 VIVO和南洋理工大学的研究人员推出Face-Adapter，这是一个专为预训练扩散模型设计的高效且有效的适配器，用于实现高精度和高保真的面部编辑。经过观察，开发人员发现无论是人...

新技术 # Face-Adapter # 适配器 # 面部编辑

2年前

05390

RankDPO：提高模型在遵循文本提示和视觉质量方面的表现

直接偏好优化（DPO）已成为一种强大的方法，用于将文本到图像（T2I）模型与人类反馈对齐。然而，成功应用DPO需要大量的资源来收集和标注大规模数据集，例如数百万张生成的人类偏好注释的配对图像。此外，随...

新技术 # RankDPO

1年前

05380

创新框架Generative Photomontage：通过组合多个生成的图像来创建他们所需的图像

卡内基梅隆大学和赖希曼大学的研究人员推出创新框架Generative Photomontage，它使用户能够通过组合多个生成的图像来创建他们所需的图像，这个过程就像是用不同的图像拼贴出一幅全新的画面...

新技术 # Generative Photomontage

2年前

05380

DragAPart：一张图片和加一系列拖动操作作为输入，生成新图片

牛津大学视觉几何小组推出DragAPart，它接收一张图片和一系列拖动操作作为输入，能够生成该物体在新状态下的新图片，且新图片与拖动操作所表达的动作相匹配。与先前主要关注物体重新定位的工作不同，Dra...

新技术 # DragAPart

2年前

05350

Grok 即将推出“任务（Tasks）”功能，支持自动化定期执行

xAI 正在为旗下 AI 模型 Grok 开发一项名为“任务”（Tasks）的新功能。这项功能预计将在 Grok 的下一次模型更新前正式上线，并为用户带来更强大的自动化能力。与 ChatGPT 的自定...

早报 # Grok # 任务

11个月前

05340

多模态统一模型UniMuMo：能够处理文本、音乐和动作（运动）数据，并在这三种模式之间生成内容

香港中文大学、华盛顿大学、不列颠哥伦比亚大学、麻省大学阿默斯特分校、 MIT-IBM Watson AI 实验室和思科研究院的研究人员推出多模态统一模型UniMuMo，它能够处理文本、音乐和动作（运动...

新技术 # UniMuMo # 多模态统一模型

2年前

05340

新颖的图生视频方法PhysGen：能够将一张静态图片转换成一段真实感强、物理上可信、时间上连贯的视频

伊利诺伊大学香槟分校推出一种新颖的图像到视频生成方法PhysGen，它能够将一张静态图片转换成一段真实感强、物理上可信、时间上连贯的视频。简单来说，就是给定一张图片，比如一个球在斜坡上，PhysGen...

新技术 # PhysGen # 图生视频

2年前

05330

微软推出小型语言模型Phi-3系列：可在手机端运行的大模型

微软推出小型语言模型Phi-3系列，它在性能上可以与一些大型模型相媲美，如Mixtral 8x7B和GPT-3.5，但大小却足以部署在手机上。这项技术的创新之处在于其训练数据集，这是phi-2数据集的...

新技术 # Phi-3 # 微软

2年前

05320

视频字幕生成模型Video ReCap：能为长达数小时的视频生成多层次的字幕

来自北卡罗来纳大学教堂山分校和 Meta AI的研究人员推出视频字幕生成模型Video ReCap，它能够为长达数小时的视频生成多层次的字幕。这个模型的设计受到了人类行为层次结构的启发，人类行为通常...

新技术 # Video ReCap # 视频字幕生成模型

2年前

05320

开源版风格参考StyleCodes：能够将图像风格表达为一个 20 符号的 base64 代码

扩散模型在图像生成方面取得了显著的成功，但如何有效地控制生成图像的风格仍然是一个挑战。虽然使用示例图像可以实现风格控制，但这种方法存在一些不便：示例图像体积较大，不易于分享，且可能涉及隐私问题。为此...

新技术 # Midjourney # StyleCodes # 风格参考

1年前

05310

创新人工智能系统Genie：从单一图像提示生成无限种可玩（即可通过行动控制的）游戏场景

来自不列颠哥伦比亚大学和Google DeepMind研究人员提出创新人工智能系统Genie，它能够从互联网上的未标记视频数据中学习，生成可交互的虚拟环境。Genie的核心功能是将文本、合成图像、照片...

新技术 # Genie # Google DeepMind

1年前