Media2Face:集成多种媒体输入(音频、图像和文本)生成同步的面部动画和头部姿势来自上海科技大学、影眸科技、香港大学和叠境数字科技的研究人员提出一个基于扩散的生成模型Media2Face,它能够根据语音信号和多模态条件(如文本、图像)生成同步的面部动画和头部姿势。 项目主页 Me...新技术# Media2Face2年前05860
文本到图像合成框架PIXART-δ:0.5秒内生成1024×1024像素的图像来自华为诺亚方舟实验室、大连理工大学、香港大学、香港科技大学的研究人员推出了文本到图像合成框架PIXART-δ,这是去年发布的PIXART-α模型的一个升级版本。PIXART-α以其高效的训练过程和生...新技术# AI绘画# PIXART-α# PIXART-δ2年前07120
基于SAM的新型视觉模型Open-Vocabulary SAM:交互式的图像分割和识别来自南洋理工大学、上海AI实验室的研究人员推出了一款基于SAM的新型视觉模型Open-Vocabulary SAM,它结合了Segment Anything Model(SAM)和CLIP模型的优势...新技术# Open-Vocabulary SAM# SAM# 图像分割2年前08560
双语文本到图像生成模型Taiyi-Diffusion-XL,支持中文提示词IDEA 研究院是由沈向洋创立,他们在2021年11月22日宣布启动“封神榜”大模型开源体系。“封神榜”是由 IDEA-CCNL 的工程师、研究人员、实习生团队共同维护的一项长期开源计划。项目基于Ap...新技术# SDXL# Taiyi-Diffusion-XL# 中文提示词2年前09250
3D场景编辑框架TIP-Editor来自腾讯人工智能实验室、中山大学的研究人员推出3D场景编辑框架TIP-Editor,它允许用户不仅通过文本提示,还通过图像提示来精确地编辑现有的基于3D高斯散射(GS)的辐射场。TIP-Editor的...新技术# 3D场景编辑# TIP-Editor2年前05390
开源人像生成器InstantID:只需一张人脸照片,快速生成不同风格的人物照片开源人像生成器InstantID今天在推特引发了热议,InstantID只需要一张人脸照片,就能快速生成多种风格的人物照片,无需复杂的训练或微调过程。InstantID还能与流行的图像扩散模型(如 S...新技术# controlnet# InstantID# LCM2年前09600
FreeNoise:通过噪声调度实现无需调参的长视频生成来自腾讯人工智能实验室、南洋理工大学、香港科技大学的研究人员提出了一种利用预训练的视频扩散模型生成高质量长视频的方法FreeNoise,它能够使模型在生成更长时间视频时保持内容的一致性,无需对模型进行...新技术# AI视频# FreeNoise# 噪声2年前07220
FABRIC:改进SD模型的新技术来自瑞士苏黎世联邦理工学院的研究人员提出了一种改进生成模型的技术FABRIC,它可以通过在扩散模型中融入迭代的人类反馈来个性化图像生成。它是一种无需训练的技术,适用于各种流行的SD模型,利用最常用的架...新技术# FABRIC# Stable Diffusion2年前06210
BootPIG:零样本个性化图像生成来自Salesforce的研究人员提出了一种新架构BootPIG,旨在实现零样本个性化图像生成。该架构基于预训练的文本到图像模型Stable Diffusion,通过引入参考图像来指导生成的对象外观...新技术# BootPIG# Stable Diffusion2年前05390
基于多模态扩散模型的创新框架CreativeSynth:用于创意融合和合成视觉艺术来自字节跳动、中科院自动化研究所、中国科学院大学人工智能学院等机构的研究人员,提出了一个名为CreativeSynth的创新框架,它基于多模态扩散模型,能够协调多模态输入并在艺术图像生成领域实现多任务...新技术# CreativeSynth# 多模态扩散模型2年前05540
新型图像生成模型Hourglass Diffusion Transformer(HDiT)Stability AI、慕尼黑大学和Birchlabs的开发人员提出了一种名为Hourglass Diffusion Transformer(HDiT)的新型图像生成模型,该模型在保持高分辨率图像合...新技术# HDiT# Stability AI# 图像生成模型2年前01,0380