阿里巴巴Wanx 团队推出新型多模态生成模型ACE:可以根据文本指令来执行复杂的图像编辑和生成任务阿里巴巴Wanx 团队推出新型多模态生成模型ACE,这个模型的核心功能是处理和生成图像,但它与传统的图像处理工具不同,因为它可以根据文本指令来执行复杂的图像编辑和生成任务。例如,你是一名摄影师,你拍摄...新技术# ACE# 阿里巴巴1年前06540
新型多模态DiT模型AV-DiT:生成既有视觉画面又有声音的高质量视频来自多伦多大学、德克萨斯大学达拉斯分校和Adobe研究中心的研究人员推出新型多模态扩散变换器AV-DiT(Audio-Visual Diffusion Transformer),它专门设计用于联合生成...新技术# AV-DiT# DiT模型2年前06540
交互式帧插值工具Framer:根据用户的创造力生成两个图像之间平滑过渡的帧帧插值是生成两个图像之间平滑过渡帧的技术,广泛应用于视频处理、动画制作和内容创作等领域。传统的帧插值方法通常依赖于固定的算法,难以实现对局部运动的精细控制。浙江大学和蚂蚁集团的研究人员提出了Frame...新技术# Framer# 帧插值1年前06530
EdgeFusion:能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像来自韩国Nota AI和三星电子的研究人员推出EdgeFusion,它能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像。这项技术的核心是优化了文生图模型Stable Diffusion...新技术# EdgeFusion# LCM# 文生图模型2年前06530
AI视频生成新模型CONSISTI2V:通过增强视觉一致性来改善视频生成的质量来自滑铁卢大学、Vector Institute、Harmony.AI、多模式艺术投影研究社区的研究人员提出了一种基于扩散的图像到视频生成新方法CONSISTI2V,它旨在通过增强视觉一致性来改善视频...新技术# AI视频生成# CONSISTI2V2年前06530
新型图像生成技术StrokeNUWA:利用大语言模型生成矢量图形StrokeNUWA是一种新型图像生成技术,用于仅通过大语言模型(LLM)生成矢量图形,无需依赖专门的视觉模块。 论文 该方法的关键创新在于利用矢量图形固有的视觉语义,将矢量图形编码为"笔画"标记,这...新技术# LLM# StrokeNUWA# 大语言模型2年前06510
基于优化框架的跨模态视频-音频生成方法Seeing and Hearing:能够同时生成视频和音频内容香港科技大学和腾讯 PCG ARC 实验室推出基于优化框架的跨模态视频-音频生成方法Seeing and Hearing,它能够同时生成视频和音频内容。方法的主要创新点在于,通过预训练的多模态模型(如...新技术# Seeing and Hearing# 优化框架# 跨模态视频-音频生成方法2年前06490
多模态大语言模型Groma:具备精细化和定位化的视觉感知能力来自香港大学和字节跳动的研究人员推出多模态大语言模型Groma,它具备精细化和定位化的视觉感知能力。Groma不仅能够理解整个图像的内容,还能处理区域级别的任务,比如区域字幕(region capti...新技术# Groma# 多模态大语言模型2年前06480
SpaTracker:通过在三维空间中跟踪像素点,能够在各种复杂场景中实现精确的运动估计来自浙江大学、加州大学伯克利分校和蚂蚁集团的研究人员推出SpatialTracker,这是一种能够在三维空间中跟踪任意二维像素点的方法。它使用单目深度估计器将2D像素提升到3D,使用三平面表示法有效表...新技术# SpaTracker# 三维空间2年前06470
专注于二次元角色的动画方法MikuDance:将二次元角色根据 Open Pose 姿势生成对应动画武汉大学、阶跃星辰和字节跳动的研究人员推出MikuDance,它是一个基于扩散的动画制作流程,用于为风格化的角色艺术作品添加混合运动动力学,使其动起来。MikuDance的核心在于它能够处理复杂的角色...新技术# MikuDance# 二次元1年前06460
Follow-Your-Click:通过用户简单的点击和简短的动作提示来实现图像的局部动画化来自香港科大、腾讯浑源和清华大学的团队推出新颖框架Follow-Your-Click,它能够通过用户简单的点击和简短的动作提示来实现图像的局部动画化。 项目主页 GitHub 想象一下,你有一张静态图...新技术# Follow-Your-Click# 局部动画化2年前06450
多内容数据集ImagiNet:为了提高合成图像检测的泛化能力而设计保加利亚大特尔诺沃自然科学与数学高中、索非亚大学、保加利亚普罗夫迪夫数学高中和斯坦福大学的研究人员推出多内容数据集ImagiNet,它是为了提高合成图像检测的泛化能力而设计的。合成图像是由计算机生成的...新技术# ImagiNet# 数据集1年前06440