英伟达开源ConsiStory:免训练保持角色和物品一致性的文生图方法来自特拉维夫大学和英伟达的研究人员提出了一种创新方法ConsiStory,它允许用户通过自然语言描述生成一系列图像,这些图像不仅能够保持一致的主题,而且能够遵循文本提示。ConsiStory的核心目标...新技术# ConsiStory# 英伟达1年前06150
LoRA:为解决大语言模型微调而开发微软的研究人员于2021年推出LoRA(Low-Rank Adaptation of Large Language Models,大语言模型的低阶适应),这是为解决大语言模型微调而开发的一项技术,用于...新技术# Lora# 大语言模型# 微软2年前05910
文本反转Textual Inversion:通过少量的图像和自然语言描述来创建新的“伪词”来指导图像生成使用文本到图像生成模型(Text-to-Image Models)来个性化地创造图像,这些模型能够根据自然语言描述生成图像,但通常难以精确地表达特定的独特概念。 项目主页 GitHub 来自特拉维夫大...新技术# Textual Inversion# 文本反转# 英伟达2年前06200
语音驱动人脸说话生成框架AVCT来自网易伏羲AI实验室、悉尼科技大学的研究人员推出了从单人音频生成单人说话脸部的框架Audio-Visual Correlation Transformer (AVCT),它能够从单个说话者的音频-视...新技术# AVCT2年前08230
字节跳动推出新颖视频合成方法Boximator:可控制画面范围及运动方向字节跳动发布了一种新颖视频合成方法Boximator,主要用于生成具有丰富和精细运动控制的高质量视频。Boximator引入了两种约束类型:硬边框(hard box)和软边框(soft box),允许...新技术# Boximator# 字节跳动# 视频合成2年前06020
文本嵌入模型nomic-embed-text-v1:完全开源可复现Nomic AI发布文本嵌入模型nomic-embed-text-v1,这是一个开源的、可复现的、拥有8192个上下文长度的英文文本嵌入模型。这个模型在处理短文本和长文本任务上的表现超过了OpenAI...新技术# nomic-embed-text-v1# 文本嵌入模型2年前05440
动态视频模型DynamiCrafter:为静态图片添加动画效果来自香港中文大学、腾讯人工智能实验室、北京大学的研究人员推出动态视频模型DynamiCrafter,它是一个利用视频扩散模型(Video Diffusion Models)来为静态图片添加动画效果的工...新技术# DynamiCrafter# 视频模型2年前05720
3D内容生成框架DreamGaussian:提高基于图像和文本生成3D模型的效率和质量来自南洋理工大学、百度和北京大学的研究人员推出3D内容生成框架DreamGaussian,专门设计用于提高基于优化方法创建三维(3D)模型的效率和质量。该框架旨在解决当前从图像或文本快速生成高质量3D...新技术# 3D内容生成框架# DreamGaussian2年前05720
苹果推出开源图像编辑模型MGIE:通过文字提示来编辑任何图像来自苹果的团队推出开源图像编辑模型MGIE(MLLM-Guided Image Editing),它旨在通过使用多模态大语言模型(MLLMs)来提升基于指令的图像编辑能力。简单来说,MGIE可以帮助用...新技术# MGIE# 图像编辑# 苹果2年前05600
视频生成通用世界模型WorldDreamer:可以完成自然场景和自动驾驶场景多种视频生成任务来自清华和极佳科技的研究人员联手推出了全新的视频生成通用世界模型WorldDreamer。它可以完成自然场景和自动驾驶场景多种视频生成任务,例如文生视频、图生视频、视频编辑、动作序列生视频等。 项目主...新技术# WorldDreamer# 视频生成2年前04970
图像高清修复技术SUPIR:将低质量图像提升到高质量水平来自中国科学院深圳先进技术学院、上海AI实验室、悉尼大学、香港理工大学、,腾讯PCG ARC实验室、香港中文大学的研究人员推出图像高清修复技术SUPIR(Scaling-UP Image Restor...新技术# SUPIR# 高清修复2年前07710
快速视频生成方法AnimateLCM:只需四步推理就可以生成视频来自香港中文大学、Avolution AI、上海人工智能实验室、商汤科技研究院的研究人员推出快速视频生成方法AnimateLCM,该方法利用一致性学习策略,将图像生成先验和运动生成先验进行解耦,从而提...新技术# AI视频生成# AnimateLCM2年前06680