VideoElevator:利用文生图模型来增强文生视频的质量和细节来自哈尔滨大学和清华大学的研究团队推出VideoElevator,利用文生图模型来增强文生视频的质量和细节,这个过程是无需训练的,可以直接插入现有的模型中使用,还能利用文生图模型来实现风格迁移,非常方...新技术# VideoElevator# 文生图模型# 文生视频2年前06480
SSAM 2增强版SAMURAI:专门设计用于视觉物体跟踪Segment Anything Model 2 (SAM 2) 是一个在物体分割任务中表现出色的模型,但在视觉物体跟踪方面仍面临一些挑战。特别是在处理拥挤场景中快速移动或自我遮挡的物体时,SAM 2...新技术# SAMURAI# SSAM 21年前06470
参照音频-视觉分割RefAVS:依据融合了多模态提示(包括音频和视觉描述)的自然语言表达,对视觉场景中的目标物进行分割中国人民大学、北京邮电大学和上海人工智能实验室的研究人员推出RefAVS(参照音频-视觉分割),依据融合了多模态提示(包括音频和视觉描述)的自然语言表达,对视觉场景中的目标物进行分割。研究团队还创建了...新技术# RefAVS# 参照音频-视觉分割2年前06470
图像编辑技术MimicBrush:允许用户指定源图像中需要编辑的区域,并提供一个参考图像,来展示编辑后期望的效果香港大学、阿里巴巴集团和蚂蚁集团的研究人员推出图像编辑技术MimicBrush,它通过模仿(imitative editing)的方式,让用户能够更加方便地发挥创造力进行图像编辑。简单来说,Mimic...新技术# MimicBrush# 图像编辑2年前06470
Warp 2.0 发布:全球首个代理开发环境来了今天,Warp 正式发布 Warp 2.0 ——全球首个代理开发环境(Agentic Development Environment,简称 ADE)。 这不是一次简单的更新,而是一次产品理念的进化:从...早报# Warp 2.0# 代理开发环境10个月前06460
Meta 推出免费视频剪辑软件Edits,挑战字节跳动旗下CapCut(剪映)Meta 于本周二正式全球发布了其视频创作应用 Edits,这款应用旨在为创作者提供一个强大的工具,用于跟踪视频创意、获取灵感,并使用特效和 AI 工具创建高质量视频。Edits 支持 iOS 和 A...早报# CapCut# Edits# Meta12个月前06460
深圳大学推出Attention Distillation:用于将参考图像的视觉特征(如风格、纹理、外观)转移到生成的图像中深圳大学的研究团队介绍了一种名为 Attention Distillation (AD) 的方法,用于将参考图像的视觉特征(如风格、纹理、外观)转移到生成的图像中。该方法通过计算预训练扩散模型中的自注...新技术# Attention Distillation# 参考图像# 深圳大学1年前06440
谷歌推出贪婪生长方法(Greedy Growing):用来训练大规模、高分辨率的基于像素的图像扩散模型谷歌发布论文讨论了一个非常有趣的话题:如何通过一种称为“贪婪生长”(Greedy Growing)的方法来训练大规模、高分辨率的基于像素的图像扩散模型,且无需级联超分辨率组件。简单来说,就是科学家们找...新技术# Greedy Growing# 谷歌# 贪婪生长2年前06430
腾讯推出创新框架AniPortrait:根据音频和一张参考肖像图片生成高质量的动画腾讯推出创新框架AniPortrait,它可以根据音频和一张参考肖像图片生成高质量的动画。这个系统可以捕捉到音频中的微妙表情和唇部动作,并将这些动作应用到一个静态的肖像图片上,从而创建出看起来像是在说...新技术# AniPortrait2年前06430
图像编辑技术Prompt-to-Prompt:通过提示词进行局部或全局编辑来自谷歌和特拉维夫大学的团队推出图像编辑技术Prompt-to-Prompt,这是一种直观的从提示到提示的编辑框架,其中编辑操作仅通过文本进行控制。此团队深入分析了文本条件模型,并观察到交叉注意力层在...新技术# Prompt-to-Prompt# 图像编辑# 提示词2年前06430
视频编辑方法STABLEV2V:解决视频编辑中形状一致性问题中国科学技术大学的研究人员推出视频编辑方法STABLEV2V,旨在解决视频编辑中形状一致性问题。STABLEV2V通过一系列顺序过程来编辑视频:首先编辑第一帧视频,然后建立交付动作与用户提示之间的对齐...新技术# STABLEV2V# 视频编辑1年前06420
字节跳动推出基于音频驱动人物肖像新框架Loopy:专门用于生成与音频同步的逼真人像视频字节跳动和浙江大学的研究人员推出新型人工智能模型Loopy,它专门用于生成与音频同步的逼真人像视频。Loopy的核心特点是完全基于音频信号来驱动人像动作,而不需要额外的空间信号来辅助控制动作,这使得生...新技术# Loopy# 人物# 字节跳动2年前06420