新型文生图风格迁移技术InstantStyle-Plus:在生成图像的同时保留原始图像的内容和风格InstantX团队推出新型文生图风格迁移技术InstantStyle-Plus,在生成图像的同时保留原始图像的内容和风格。这项技术特别适用于需要将一种图像的风格应用到另一种图像上,但又希望保留原始图...新技术# InstantStyle-Plus# 风格迁移2年前09570
谷歌推出新型图像编辑工具Magic Insert:将一张图片中的主题(比如一个人或者一个物体)拖拽到另一张风格完全不同的图片上,并且让这个主题在新图片中看起来非常自然谷歌推出新型图像编辑工具Magic Insert,可以让我们像变魔术一样,将一张图片中的主题(比如一个人或者一个物体)拖拽到另一张风格完全不同的图片上,并且让这个主题在新图片中看起来非常自然,就像它本...新技术# Magic Insert# 图像编辑# 谷歌2年前07340
FoleyCrafter:用于将无声视频通过自动生成高质量、与视频同步的声音效果,从而带来沉浸式的视听体验上海人工智能实验室he 香港中文大学(深圳)的研究人员推出FoleyCrafter系统,它专门用于将无声视频通过自动生成高质量、与视频同步的声音效果,从而带来沉浸式的视听体验。这项技术在电影、电视和游...新技术# FoleyCrafter2年前06730
高质量人类动作视频生成框架MimicMotion:依据任意运动指令生成高质感、任意长度的视频内容腾讯和上海交通大学的研究人员推出高质量人类动作视频生成框架MimicMotion,依据任意运动指令生成高质感、任意长度的视频内容。简单来说,MimicMotion是一个可以制作出逼真人类动作视频的智能...新技术# MimicMotion# 视频生成2年前08360
零样本视频恢复DiffIR2VR-Zero:将低质量的视频转换成高质量的视频阳明交通大学、东京大学和联发科的研究人员推出DiffIR2VR-Zero,它能够实现零样本(zero-shot)视频恢复。零样本意味着这种方法不需要针对特定任务进行训练,就能将低质量的视频转换成高质量...新技术# DiffIR2VR-Zero# 视频恢复2年前01,0490
新型图像分割模型EVF-SAM:利用多模态提示(即图像和文本),结合视觉-语言模型来生成指代提示,并借助SAM模型完成分割任务华中科技大学和vivo AI 实验室的研究人员推出新型图像分割模型EVF-SAM,EVF-SAM的核心特点是它能够理解文本提示,并根据这些提示对图像中的对象进行精确分割。这项技术对于那些需要根据用户描...新技术# EVF-SAM# 图像分割模型2年前01,1790
用于视频合成的交互式工具Image Conductor:让用户对视频内容中的相机运动和对象移动进行精细且准确的控制北京大学、腾讯PCG ARC实验室、南洋理工大学、 清华大学、澳门大学和深圳先进技术研究院的研究人员推出Image Conductor,它是一种用于视频合成的交互式工具,能够让用户对视频内容中的相机运...新技术# Image Conductor# 视频合成2年前08040
新型框架FreeTraj:在视频扩散模型中实现无需调整参数的轨迹控制南洋理工大学、 香港科技大学和腾讯人工智能实验室的研究人员推出新型框架FreeTraj,它用于在视频扩散模型中实现无需调整参数的轨迹控制。简而言之,FreeTraj允许用户在生成视频时精确控制视频中对...新技术# FreeTraj# 轨迹控制2年前04890
创新框架MotionBooth:生成具有定制主体和可控主体及摄像机运动的动画视频北京大学、南洋理工大学、上海人工智能实验室、浙江大学和上海交通大学的研究人员推出创新框架MotionBooth,它专门用于生成具有定制主体和可控主体及摄像机运动的动画视频。简单来说,MotionBoo...新技术# MotionBooth2年前09590
人类偏好优化技术NCPPO:改善文生图模型,使其生成的图像更加符合人类的偏好俄罗斯国家研究型高等经济大学的研究人员推出新方法NCPPO,它用于改善文本到图像的扩散模型(Diffusion Models),使其生成的图像更加符合人类的偏好。扩散模型是一种生成模型,它们通过逐步去...新技术# NCPPO# 人类偏好# 文生图模型2年前06000
小冰推出Portrait4D-v2:创建出逼真的4D头部头像小冰推出Portrait4D-v2,它能够创建出逼真的4D头部头像。4D头像不仅具有三维的立体形状,还能随着时间变化而展示出不同的面部表情和头部动作,就像活生生的人一样。这项技术的应用前景非常广泛,比...新技术# 4D头部头像# Portrait4D-v22年前08900
新型多模态图像生成系统MUMU:从文本和图像混合提示生成图像来自萨特希尔风险投资公司的研究人员推出新型多模态图像生成系统MUMU,MUMU的核心能力是从文本和图像混合提示(multimodal prompts)生成图像。简单来说,用户可以提供一些文本描述和参考...新技术# MUMU# 多模态图像生成2年前05230