小鹏科技推出通用视频编辑框架AiAS:将任何物体无缝插入到动态视频小鹏科技推出通用框架“Anything in Any Scene(AiAS)”,用于创建逼真视频模拟的方法,可以将任何物体无缝插入到现有的动态视频中。这种方法特别强调物理真实性,包括几何真实性、光照真...新技术# AiAS# 小鹏科技# 视频编辑2年前05870
DimensionX框架:从单张图像生成逼真的3D和4D场景,实现对空间和时间维度的可控生成香港科技大学、清华大学和生数科技的研究人员推出一个名为DimensionX的框架,它能够从单张图片生成高逼真度的3D和4D场景,并且通过视频扩散技术(video diffusion)实现对空间和时间维...新技术# DimensionX1年前05860
Claude Code:智能编码最佳实践指南Anthropic于2月25日发布了 Claude Code,这是一个用于智能体编程(agentic coding)的命令行工具。作为研究项目开发,Claude Code 为 Anthropic 的工...教程# Claude Code# 智能编码8个月前05850
大型重建模型Real3D:利用单视图真实世界图像进行3D重建德克萨斯大学奥斯汀分校的研究人员推出Real3D,它是首个能够使用单视图真实世界图像进行训练的大型重建模型(Large Reconstruction Model,简称LRM)。Real3D通过自训练框...新技术# 3D模型# Real3D2年前05850
AniClipart:根据文本提示将静态的剪贴画转换成动画香港城市大学和莫纳什大学的研究人员推出AniClipart,它能够根据文本提示将静态的剪贴画(clipart)转换成动画。剪贴画是一种预先制作的图形艺术形式,通常用于快速增强视觉内容。传统的剪贴画动画...新技术# AniClipart2年前05850
创新系统SEE-2-SOUND:为静态图片或动态视频生成与之匹配的立体声效果,增强观众的沉浸感和体验多伦多大学、Temerty 人工智能研究与医学教育中心和Sunnybrook 研究所的研究人员推出创新系统SEE-2-SOUND,它能够将视觉内容(如图片或视频)转换成具有空间感的音频输出。简单来说...新技术# SEE-2-SOUND# 立体声2年前05840
图像编辑新方法DICE:用于改进离散扩散模型在可控编辑任务中的性能罗格斯大学、麻省理工学院-IBM Watson AI 实验室、谷歌 DeepMind、NEC 美国实验室、纽约大学、 沃尔玛全球科技公司、澳大利亚国立大学和 麻省理工学院阿灵顿分校的研究人员推出图像编...新技术# DICE# 图像编辑1年前05830
新型图像到视频扩散模型TRIP:专注于将静态图像转换为动态视频来自中国科学技术大学和HiDream.ai的研究人员推出新型图像到视频扩散模型TRIP(Temporal Residual Learning with Image noise Prior),它专注于将...新技术# TRIP# 图生视频2年前05830
DiLightNet:用于文生图模型图像生成过程中对照明效果精细控制来自浙江大学、微软亚洲研究院、威廉玛丽学院和清华大学的研究人员提出一种新方法DiLightNet,它用于在基于文本提示的扩散模型图像生成过程中实现精细的照明控制。 论文地址 扩散模型是一种能够根据文本...新技术# DiLightNet# 照明效果2年前05830
Media2Face:集成多种媒体输入(音频、图像和文本)生成同步的面部动画和头部姿势来自上海科技大学、影眸科技、香港大学和叠境数字科技的研究人员提出一个基于扩散的生成模型Media2Face,它能够根据语音信号和多模态条件(如文本、图像)生成同步的面部动画和头部姿势。 项目主页 Me...新技术# Media2Face2年前05830
个性化图像生成新方法ViPer: 通过个体偏好学习实现生成模型的视觉个性化瑞士联邦理工学院的研究人员推出一种个性化生成模型输出的方法ViPer,它可以让生成模型(比如用来生成图片的AI)根据个人的喜好来定制生成的内容。这是通过一次性捕捉用户的总体偏好,并在无需详细工程化提示...新技术# ViPer# 个性化图像生成1年前05810
文生图定制模型Pair Customization:从单一图像对中学习风格差异,并随后将习得的风格应用于生成过程中来自卡内基梅隆大学和东北大学的研究人员推出新定制方法Pair Customization,该方法从单一图像对中学习风格差异,并随后将习得的风格应用于生成过程中。这是一款使用一对图像(一个原始图像和一个...新技术# Pair Customization# 文生图定制模型2年前05810