全新生成模型StableIdentity:只需一张人脸照片,快速生成不同风格的人物照片、视频来自大连理工大学、ZMO AI的研究人员提出了一种全新的图像、视频和3D定制生成模型StableIdentity,它能够将任何人的面部特征稳定地融入到各种不同的场景中。这项技术的核心在于,它能够通过一...新技术# StableIdentity# 生成模型2年前07940
图像编辑框架FlexEdit:用于灵活且可控地编辑图像中的物体来自VinAI Research和越南科技大学的研究人员推出图像编辑框架FlexEdit,它是一个基于扩散模型(Stable Diffusion)的图像编辑框架,专门设计用于灵活且可控地编辑图像中的物...新技术# FlexEdit# 图像编辑框架2年前07920
视频驱动人脸识别动画系统LivePortrait:将静态的肖像照片生动地动画化,同时保持高效和精确的控制能力快手科技、中国科学技术大学和复旦大学的研究人员推出视频驱动人脸识别动画系统LivePortrait,它能够将静态的肖像照片生动地动画化,同时保持高效和精确的控制能力。例如,你有一张其他人物照片,Liv...新技术# LivePortrait2年前07890
适用于 DiTs 模型的快速后训练向量量化方法 VQ4DiT:能够在各种资源受限的环境中高效运行,同时保持生成图像的质量。浙江大学和vivo的研究人员推出一种适用于 DiTs 的快速后训练向量量化方法 VQ4DiT,它是一种针对扩散变换器模型(Diffusion Transformers,简称DiTs)的高效后训练矢量化...新技术# DiTs 模型# VQ4DiT2年前07880
BroadWay:提升文生视频模型的质量,而且不需要额外的训练上海交通大学、中国科学技术大学、香港中文大学和上海人工智能实验室的研究人员推出为BroadWay,它能够提升文生视频模型的质量,而且不需要额外的训练。这就像是给视频生成模型安装了一个“涡轮增压器”,让...新技术# BroadWay# 文生视频模型2年前07870
适配器样式Stylus:自动选择和组合适配器(adapters),以提高生成图像的质量来自加州大学伯克利分校、卡内基梅隆大学和Google Deepmind的研究人员推出新的适配器样式Stylus,它能够自动选择和组合适配器(adapters),以提高生成图像的质量。适配器是一种在特定...百科# Stylus# 适配器样式2年前07870
Anthropic旗下Claude 升级:整合 Google Workspace 和全新研究功能AI 聊天机器人市场竞争激烈,Anthropic 的 Claude 正在通过一系列新功能脱颖而出。周二,Anthropic 宣布其 AI 聊天机器人 Claude 已整合 Google Workspa...早报# Anthropic# Claude# Google Workspace12个月前07820
DimensionX框架:从单张图像生成逼真的3D和4D场景,实现对空间和时间维度的可控生成香港科技大学、清华大学和生数科技的研究人员推出一个名为DimensionX的框架,它能够从单张图片生成高逼真度的3D和4D场景,并且通过视频扩散技术(video diffusion)实现对空间和时间维...新技术# DimensionX1年前07790
基于ComfyUI的ComfyGen:用于文本到图像生成的提示自适应工作流英伟达和特拉维夫大学的研究人员推出新型文生图系统ComfyGen,此系统能够根据用户提供的文本提示(prompt),自动选择或生成最适合该提示的图像生成工作流。研究团队引入了一个新颖的任务——提示自适...新技术# ComfyGen# ComfyUI# 工作流2年前07780
新的4位量化方法SVDQuant:通过量化权重和激活值为4位来加速模型的推理过程,同时保持图像质量扩散模型因其在生成高保真图像方面的卓越能力而备受关注。然而,这些模型在内存和计算方面的要求非常高,这限制了它们在消费级设备和需要低延迟的应用中的部署。为了解决这些问题,研究人员提出了多种技术,包括后训...新技术# SVDQuant# 量化方法1年前07770
韩国科学技术院提出超分辨率框架Chain-of-Zoom(CoZ):突破单图像超分辨率模型的放大极限近年来,单图像超分辨率(SISR) 模型在固定缩放因子下已经能够生成接近真实照片质量的图像。然而,一旦尝试超出训练范围进行放大,就会出现模糊、伪影等问题,严重影响视觉效果。 此外,如果想获得更高倍数的...新技术# Chain-of-Zoom# CoZ# 超分辨率10个月前07750
Controlnet作者lllyasviel新开源项目Omost:将大语言模型的编程能力转化为图像合成能力Controlnet作者lllyasviel的新开源项目Omost,这是一个将大语言模型的编程能力转化为图像合成能力的项目。项目名称“Omost”(发音类似于“almost”,意为“几乎”)蕴含双重意...新技术# controlnet# lllyasviel# Omost2年前07750