新型单步视频修复(VR)技术SeedVR2:通过扩散模型和对抗性后训练(APT)实现高效、高质量的视频修复和超分辨率南洋理工大学和字节跳动的研究人员推出一种新型单步视频修复(VR)技术SeedVR2,通过扩散模型(Diffusion Model)和对抗性后训练(Adversarial Post-Training, ...新技术# SeedVR2# 视频修复9个月前03050
新型视频语言模型Video-Panda:无需编码器的新方法,用于理解和生成与视频内容相关联的语言描述波恩大学、拉马尔机器学习与人工智能研究所和哈利法大学的研究人员推出新型视频语言模型Video-Panda,这是一个无需编码器(encoder-free)的方法,用于理解和生成与视频内容相关联的语言描述...新技术# Video-Panda1年前03050
基于视频扩散模型的上色工具AniDoc:用于自动化2D动画制作流程中的线稿着色自动化视频线稿上色是简化动画制作流程、降低劳动力成本的关键技术。然而,传统方法面临多个挑战: 角色设计艺术与线稿草图对齐问题:确保颜色信息准确地映射到线稿中。 时间一致性需求:保证动画帧之间的颜色和风...新技术# AniDoc# 线稿着色1年前03050
强调了结构化注释的使用!用于训练复杂图像-文本模型的大规模数据集LAION-SG浙江大学、江南大学、北京大学、阿里巴巴集团和蚂蚁集团的研究人员推出一个用于训练复杂图像-文本模型的大规模数据集LAION-SG,特别强调了结构化注释的使用。LAION-SG通过提供场景图(Scene ...新技术# LAION-SG# 数据集1年前03050
ROICtrl:通过区域实例控制增强扩散模型的多实例生成自然语言在描述复杂场景时,尤其是在准确地将位置和属性信息与多个实例关联方面,常常遇到困难。这限制了当前基于文本的视觉生成模型,使其只能生成包含少数主导实例的简单组合。为了解决这一限制,新加坡国立大学...新技术# ROICtrl1年前03050
OpenAI 推出基准测试SWE-Lancer:评估 AI 模型在真实软件工程任务中的表现OpenAI 最近推出了 SWE-Lancer,这是一个基于真实世界软件工程任务的基准测试平台。SWE-Lancer 包含超过 1400 个来自 Upwork 的自由软件工程任务,这些任务的总报酬价值...新技术# OpenAI# SWE-Lancer# 基准测试1年前03040
Inst-IT:增强大型多模态模型实例级理解能力复旦大学计算机学院、上海创新学院和华为诺亚方舟实验室的研究人员提出了Inst-IT,这是一种通过明确的视觉提示指令调优来增强大型多模态模型(LMMs)实例级理解能力的解决方案。尽管现有的LMMs在整体...新技术# Inst-IT# 多模态模型1年前03040
即插即用的美学适配器VMix:提升生成图像的质量,特别是在视觉审美维度上,如颜色、光线、构图等方面尽管扩散模型(Diffusion Models)在文本到图像生成方面展现了非凡的才能,但在生成高度美学图像方面仍存在不足。具体来说,生成图像与真实世界美学图像在更细粒度的维度(如色彩、光影、构图等)上...新技术# VMix# 美学适配器1年前03030
新型扩散模型框架VividFace:专门为视频换脸而设计视频换脸技术近年来在各种应用中变得越来越流行,但现有方法主要集中在静态图像上,难以应对视频换脸中的时间一致性和复杂场景问题。为了解决这些问题,香港中文大学 MMLab、商汤科技研究院和 InnoHK ...新技术# VividFace# 视频换脸1年前03030
多粒度视频编辑框架VideoGrain:通过自然语言提示实现对视频内容的精细编辑悉尼科技大学和浙江大学的研究人员推出多粒度视频编辑框架VideoGrain,通过自然语言提示实现对视频内容的精细编辑。多粒度视频编辑包括类别级(class-level)、实例级(instance-le...新技术# VideoGrain# 视频编辑1年前03020
图生视频框架Through-The-Mask:将静态图像转换为基于文本描述的真实视频序列Meta和耶路撒冷希伯来大学的研究人员推出图生视频框架Through-The-Mask,旨在将静态图像转换为基于文本描述的真实视频序列。该框架通过引入基于掩码的运动轨迹作为中间表示,能够准确地动画化多...新技术# Through-The-Mask# 图生视频1年前03010
新型视频超分辨率(VSR)框架STAR:通过整合文生视频模型,解决真实世界视频超分辨率中的空间细节和时间一致性问题在处理真实世界视频超分辨率任务时,基于生成对抗网络(GAN)的方法常常面临过度平滑的问题,而图像扩散模型虽然能部分解决这一问题,但在保持时间一致性方面表现不佳。为了解决这些问题,来自南京大学、字节跳动...新技术# STAR# 视频超分辨率1年前03010