自动图形设计构图方法LaDeCo:从多模态图形元素自动组成一个协调、平衡且视觉上令人愉悦的图形设计 随着技术的进步,自动化的图形设计工具正在逐渐改变我们创造视觉内容的方式。然而,现有的生成模型往往局限于特定的子任务,并未能全面地处理设计组合这一复杂过程。为了克服这些限制,西安交通大学与微软研究院联手... 新技术# LaDeCo# 自动图形设计 2个月前01020
Orient Anything:用于从单张图片中估计物体的方向 浙江大学、Sea AI实验室和香港大学的研究人员推出一个名为“Orient Anything”的方法,它用于从单张图片中估计物体的方向。这种方法特别关注于理解物体在图像中的空间姿态和排列,这对于计算机... 新技术# Orient Anything 2个月前01260
任务偏好优化TPO:通过视觉任务对齐来提升多模态大语言模型的性能 上海人工智能实验室、浙江大学、中国科学技术大学、上海交通大学、中国科学院深圳先进技术研究院和南京大学的研究人员推出一种名为任务偏好优化(Task Preference Optimization, TP... 新技术# TPO# 任务偏好优化# 多模态大语言模型 2个月前01180
1.58-bit FLUX:将FLUX.1-dev量化到1.58位权重的方法 字节跳动和浦项科技大学的研究人员推出1.58-bit FLUX,这是第一个成功将最先进的文本到图像生成模型FLUX.1-dev量化到1.58位权重的方法。通过这种方法,我们能够在不损失生成质量的情况下... 新技术# 1.58-bit FLUX 2个月前01070
采用纯视觉方法!专注于GUI映射的大型多模态模型Aria-UI 在当今数字化快速发展的时代,跨平台的自动化任务变得越来越普遍。对于这些任务而言,数字代理通过直接操作图形用户界面(GUI)来完成工作的重要性日益凸显。然而,将自然语言指令准确映射到具体的GUI元素上一... 新技术# Aria-UI 2个月前01020
StereoCrafter框架:用于将单目(2D)视频转换为沉浸式立体 3D 视频,以满足人们对沉浸式数字体验的需求 腾讯AI实验室和腾讯PCG ARC Lab的研究人员推出StereoCrafter框架,用于将单目视频转换为沉浸式立体 3D 视频,以满足人们对沉浸式数字体验的需求。该框架主要解决了传统 2D-to-... 新技术# StereoCrafter 2个月前02000
通用的多模态运动生成模型LMM:统一并简化动画和视频制作中的多种运动生成任务,如文本生成运动、音乐生成舞蹈等 南洋理工大学和商汤科技的研究团队近期推出了一项革命性的技术——大运动模型(LMM),这是一个通用的多模态运动生成模型。LMM旨在统一并简化动画和视频制作中的多种运动生成任务,如文本生成运动、音乐生成舞... 新技术# LMM# 多模态运动生成模型 2个月前01200
新型视频语言模型Video-Panda:无需编码器的新方法,用于理解和生成与视频内容相关联的语言描述 波恩大学、拉马尔机器学习与人工智能研究所和哈利法大学的研究人员推出新型视频语言模型Video-Panda,这是一个无需编码器(encoder-free)的方法,用于理解和生成与视频内容相关联的语言描述... 新技术# Video-Panda 2个月前01100
微软亚洲研究院推出新型视频自编码器VidTwin 北京大学、微软亚洲研究院和香港中文大学(深圳)的研究人员推出一种新型视频自编码器(Video Autoencoder,简称Video AE),名为VidTwin。VidTwin的核心创新在于将视频分解... 新技术# VidTwin# 视频自编码器 2个月前01300
MotiF:通过引导模型关注更多运动区域来改善文本对齐和运动生成 文本-图像到视频生成(TI2V) 是一项旨在根据文本描述从静态图像生成动态视频的技术。尽管这一领域已经取得了一定进展,但现有方法在生成与文本提示良好对齐的视频时仍面临显著挑战,尤其是在指定运动细节方面... 新技术# MotiF# 图生视频 2个月前01330
无需图像数据的方法Diff-Instruct*(DI*):用于构建符合人类偏好的一步式文生图模型,同时保持生成高度逼真图像的能力 北京大学、小红书和卡内基梅隆大学的研究人员推出一种无需图像数据的方法Diff-Instruct*(DI*),用于构建符合人类偏好的一步式文本到图像生成模型,同时保持生成高度逼真图像的能力。研究团队将人... 新技术# Diff-Instruct*(DI*)# 一步式文生图模型 2个月前01340
基于扩散模型的创新框架3DHM:根据单张图片和目标3D动作序列来生成人物动画 加州大学伯克利分校的研究人员提出了一种创新的框架——3DHM(3D Human Motion),该框架利用扩散模型从单张图像中根据给定的目标3D运动序列生成高质量的人物动画。这一方法的核心在于解耦人体... 新技术# 3DHM# 人物动画 2个月前01130