AI视频生成模型Animated Stickers:让静态表情包动起来来自Meta的研究人员推出了AI视频生成模型Animated Stickers,它可以让普通表情包图片“动”起来。这项技术的核心是利用先进的文本到图像(Text-to-Image)模型,通过添加时间层...新技术# AI视频生成模型# Animated Stickers# 表情包2年前07040
条件感知神经网络CAN:用于在图像生成模型中添加控制来自麻省理工学院、清华大学和英伟达的研究人员推出一种条件感知神经网络(CAN),用于在图像生成模型中添加控制,它通过动态调整神经网络的权重来实现对生成图像的控制。 论文 GitHub 与之前的条件控制...新技术# CAN# 条件感知神经网络2年前07030
视频编码器VideoPrism:能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答来自谷歌的研究人员推出视频编码器VideoPrism,它是一个通用的视频理解模型,能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答(QA)。VideoPrism通过在一个单一的冻结模型上进...新技术# VideoPrism# 视频编码器# 谷歌9个月前07030
高效且精确的注意力机制量化方法SageAttention:加速大语言处理、图像生成和视频生成模型清华大学的研究人员推出一种高效且精确的注意力机制量化方法SageAttention,此方法的OPS(每秒操作数)性能分别比FlashAttention2和xformers提高了约2.1倍和2.7倍。S...新技术# SageAttention# 注意力机制1年前07020
图像编辑技术Editable Image Elements:允许用户对输入的图像进行空间编辑,同时保持图像内容的逼真度来自加州大学圣地亚哥分校和Adobe 研究中心的研究人员推出新的图像编辑技术Editable Image Elements for Controllable Synthesis,它允许用户对输入的...新技术# Editable Image Elements# 图像编辑2年前07020
谷歌推出新框架ImageInWords(IIW):创建准确且细节丰富的图像描述,以提高视觉-语言模型的训练效果Google Research、Google DeepMind和华盛顿大学的研究团队推出新框架ImageInWords(IIW),此框架旨在创建准确且细节丰富的图像描述,以提高视觉-语言模型(VLMs...新技术# IIW# ImageInWords# 数据集2年前07010
连续3D词(Continuous 3D Words):通过文本提示来精细控制图像生成过程中的多个属性来自牛津大学、Adobe Research的研究人员提出了一种“连续3D词(Continuous 3D Words)”的新方法,使得用户能够通过文本提示来精细控制图像生成过程中的多个属性,比如照明方向...新技术# AI绘画# Continuous 3D Words# 连续3D词2年前07000
模型量化技术BitsFusion:减少SD模型参数大小,同时还能让这个模型生成的图片质量更好Snap和罗格斯大学的研究人员推出新型图像生成模型的权重量化技术BitsFusion。简单来说,就是研究者们开发了一种方法,可以把一个用来生成图片的复杂模型(叫做扩散模型)的参数量大大减少,同时还能让...新技术# BitsFusion# 模型参数# 模型量化2年前06990
基于Transformer架构的新型图像生成模型DART:根据文本描述生成高质量的图像苹果和香港中文大学的研究人员推出新型图像生成模型DART,这个模型的目标是让计算机能够根据文本描述生成高质量的图像。DART是一个基于Transformer架构的模型,它在非马尔可夫框架内统一了自回归...新技术# DART# Transformer架构# 图像生成模型1年前06980
腾讯优图推出RealTalk:用于生成逼真、实时的音频驱动人脸视频的框架腾讯优图实验室和南京大学的研究人员推出新技术RealTalk,它是一个用于生成逼真、实时的音频驱动人脸视频的框架。简单来说,RealTalk可以根据一个人的语音生成一个看起来非常真实的3D人脸动画,而...新技术# RealTalk# 南京大学# 腾讯优图2年前06970
ViewDiff:从文本或图像生成多视图图像来自Meta和慕尼黑工业大学的研究人员推出ViewDiff,它能够根据文本描述或已有的图像输入,生成与3D对象一致的高质量图像。 项目主页 GitHub 想象一下,你只需要告诉计算机你想要的3D对象是...新技术# 3D模型# ViewDiff# 多视角2年前06970
新框架VSP-LLM:通过观察视频中人的嘴型来理解和翻译说话内容这篇论文介绍了一个名为VSP-LLM(Visual Speech Processing incorporated with LLMs)的新框架,它结合了视觉语音处理和大语言模型(LLMs),以提高视觉...新技术# VSP-LLM# 大语言模型# 视觉语音翻译2年前06970