基于 SEED-X 的新型多模态大语言模型SEED-Story:根据用户提供的文本和图片生成长篇的图文故事 香港科技大学(广州)、腾讯、香港中文大学和香港科技大学的研究人员推出新型多模态大语言模型SEED-Story,它能够根据用户提供的文本和图片生成长篇的多模态故事。这些故事不仅包含丰富的叙事文本,还包括... 新技术# SEED-Story# 图文故事# 多模态大语言模型 7个月前07240
StreamMultiDiffusion:实时交互式图像生成和编辑的工具 来自韩国首尔国立大学的团队发布新应用StreamMultiDiffusion,这是一种用于实时交互式图像生成和编辑的工具,这是将之前已发布的技术 MultiDiffusion + StreamDiff... 新技术# StreamMultiDiffusion# 实时生图 11个月前07180
SPRIGHT T2I:改进文生图模型在生成图像时保持空间一致性的能力 来自亚利桑那州立大学、英特尔实验室、Hugging Face和华盛顿大学的研究人员推出SPRIGHT T2I,探讨如何改进文生图(Text-to-Image,简称T2I)模型在生成图像时保持空间一致性... 新技术# SPRIGHT T2I# 文生图模型 11个月前07130
新型文生图模型的微调算法SPIN-Diffusion SPIN-Diffusion是一种新型文生图模型的微调算法。这个算法特别适用于那些只有单个图像与文本提示(prompt)相关联的数据集,它通过一种自我博弈(self-play)的机制,让模型不断地与自... 新技术# SPIN-Diffusion# 文生图模型 1年前07040
分辨率适配器ResAdapte:解决SD模型生成超大图片和非训练分辨率图片时的肢体异常以及画面崩坏问题 字节跳动推出ResAdapter,它是一个用于SD模型的分辨率适配器,可以生成任意风格领域的图像,并且能够在不同的分辨率下保持图像的一致性和质量。 项目主页 GitHub 模型地址 简单来说,可以解决... 新技术# ResAdapte# SD模型 12个月前06970
新型图像编辑框架Differential Diffusion:精确地控制图像的编辑过程 来自特拉维夫大学、赖希曼大学的研究人员推出新型图像编辑框架Differential Diffusion,此框架的核心特点是能够让用户对图像的每个像素或区域进行不同程度的编辑,这在以往的图像编辑技术中是... 新技术# Differential Diffusion# 图像编辑 1年前06940
Controlnet作者新项目IC-Light:根据文本提示或参考背景图重新打光生成符合新背景环境光照的图片 IC-Light是Controlnet、Fooocus、Stable Diffusion WebUI Forge的开发者lllyasviel推出新开源项目,这是一款控制图像照明效果的模型,简单来说其主... 新技术# controlnet# IC-Light# 打光 10个月前06930
AI视频编辑工具LAVE:利用大语言模型(LLMs)来辅助用户进行视频编辑 来自加州大学圣地亚哥分校和Meta的研究人员推出AI视频编辑工具LAVE(LLM-Powered Agent Assistance and Language Augmentation for Vide... 新技术# AI视频编辑# LAVE 1年前06900
自级联扩散模型Self-Cascade:快速适应高分辨率的图像和视频生成 来自南洋理工大学、腾讯AI实验室、香港科技大学和克莱姆森大学的研究人员提出了一种名为自级联扩散模型(Self-Cascade Diffusion Model)的新方法,该方法利用了低分辨率模型的丰富知... 新技术# Self-Cascade# 自级联扩散模型 1年前06780
新型图像生成模型Diffusion Mamba(DiM):通过结合Mamba序列模型的效率和扩散模型的表现力,来高效生成高分辨率的图像 来自香港大学、华为诺亚方舟实验室、清华大学和上海交通大学的研究人员推出新型图像生成模型Diffusion Mamba(简称DiM),它融合了基于状态空间模型(SSM)的高效序列模型——Mamba,与扩... 新技术# Diffusion Mamba# DiM# 图像生成 9个月前06770
视觉-语言适配器PaLM2-VAdapter:将传统的视觉编码器和大语言模型结合起来 PaLM2-VAdapter模型的主要目的是更有效地连接视觉编码器和大语言模型,以提高它们之间的协同工作效果。 论文 它能够有效地将传统的视觉编码器(vision encoders)和大语言模型(LL... 新技术# PaLM2-VAdapter# 大语言模型# 视觉编码器 1年前06750
MaPa:根据文本描述为3D模型生成逼真的材质 来自浙江大学、蚂蚁集团和深圳大学的研究人员推出MaPa,它能够根据文本描述为3D模型生成逼真的材质。与传统的纹理贴图不同,MaPa通过生成程序化的材质图(material graphs)来表示3D模型... 新技术# 3D模型# MaPa 10个月前06670