新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

采用纯视觉方法！专注于GUI映射的大型多模态模型Aria-UI

在当今数字化快速发展的时代，跨平台的自动化任务变得越来越普遍。对于这些任务而言，数字代理通过直接操作图形用户界面（GUI）来完成工作的重要性日益凸显。然而，将自然语言指令准确映射到具体的GUI元素上一...

新技术 # Aria-UI

12个月前

02470

StereoCrafter框架：用于将单目（2D）视频转换为沉浸式立体 3D 视频，以满足人们对沉浸式数字体验的需求

腾讯AI实验室和腾讯PCG ARC Lab的研究人员推出StereoCrafter框架，用于将单目视频转换为沉浸式立体 3D 视频，以满足人们对沉浸式数字体验的需求。该框架主要解决了传统 2D-to...

新技术 # StereoCrafter

12个月前

06020

通用的多模态运动生成模型LMM：统一并简化动画和视频制作中的多种运动生成任务，如文本生成运动、音乐生成舞蹈等

南洋理工大学和商汤科技的研究团队近期推出了一项革命性的技术——大运动模型（LMM），这是一个通用的多模态运动生成模型。LMM旨在统一并简化动画和视频制作中的多种运动生成任务，如文本生成运动、音乐生成舞...

新技术 # LMM # 多模态运动生成模型

12个月前

02930

新型视频语言模型Video-Panda：无需编码器的新方法，用于理解和生成与视频内容相关联的语言描述

波恩大学、拉马尔机器学习与人工智能研究所和哈利法大学的研究人员推出新型视频语言模型Video-Panda，这是一个无需编码器（encoder-free）的方法，用于理解和生成与视频内容相关联的语言描述...

新技术 # Video-Panda

12个月前

02990

微软亚洲研究院推出新型视频自编码器VidTwin

北京大学、微软亚洲研究院和香港中文大学（深圳）的研究人员推出一种新型视频自编码器（Video Autoencoder，简称Video AE），名为VidTwin。VidTwin的核心创新在于将视频分解...

新技术 # VidTwin # 视频自编码器

12个月前

02690

MotiF：通过引导模型关注更多运动区域来改善文本对齐和运动生成

文本-图像到视频生成（TI2V）是一项旨在根据文本描述从静态图像生成动态视频的技术。尽管这一领域已经取得了一定进展，但现有方法在生成与文本提示良好对齐的视频时仍面临显著挑战，尤其是在指定运动细节方面...

新技术 # MotiF # 图生视频

12个月前

03600

无需图像数据的方法Diff-Instruct（DI）：用于构建符合人类偏好的一步式文生图模型，同时保持生成高度逼真图像的能力

北京大学、小红书和卡内基梅隆大学的研究人员推出一种无需图像数据的方法Diff-Instruct*（DI*），用于构建符合人类偏好的一步式文本到图像生成模型，同时保持生成高度逼真图像的能力。研究团队将人...

新技术 # Diff-Instruct*（DI*）# 一步式文生图模型

12个月前

02800

基于扩散模型的创新框架3DHM：根据单张图片和目标3D动作序列来生成人物动画

加州大学伯克利分校的研究人员提出了一种创新的框架——3DHM（3D Human Motion），该框架利用扩散模型从单张图像中根据给定的目标3D运动序列生成高质量的人物动画。这一方法的核心在于解耦人体...

新技术 # 3DHM # 人物动画

12个月前

02500

3D对象生成和重建流程PartGen：可以从文本、图像或非结构化3D对象开始，生成由多个有意义部分组成的3D对象

近年来，文本到3D生成器和3D扫描仪技术取得了显著进展，能够生成高质量的3D资产。然而，这些资产通常由单一的融合表示组成，例如隐式神经场、高斯混合或网格，缺乏任何有用的结构。这种单一表示方式使得资产难...

新技术 # 3D对象 # PartGen

12个月前

04480

基于图像扩散先验的深度修复模型DepthLab：从单张图像中生成完整的3D场景

香港大学、香港科技大学、蚂蚁集团、阿尔托大学和通义实验室的研究人员推出DepthLab ，它是一个基于图像扩散先验的深度修复模型，用于从单张图像中生成完整的3D场景。DepthLab旨在解决深度数据中...

新技术 # 3D场景 # DepthLab # 深度修复模型

12个月前

03120

新型视频变分自编码器VideoVAE+：实现高保真视频编码

随着多媒体内容的增长，学习一个鲁棒的视频变分自编码器（VAE）对于减少视频冗余和促进高效视频生成变得越来越重要。直接将图像VAE应用于单个帧可能会导致时间不一致性和次优压缩率，因为缺乏对时间维度的有效...

新技术 # VideoVAE+

1年前

02650

蒸馏解码DD：用于加速自回归（AR）模型在图像和文本生成任务中的采样步骤

自回归（AR）模型在文本和图像生成方面取得了显著的进展，但其逐令牌生成的过程导致了速度上的局限性。为了克服这一问题，清华大学和微软研究院的研究人员提出了一项雄心勃勃的任务：能否将预训练的AR模型调整为...

新技术 # 自回归模型 # 蒸馏解码

1年前

02530

加载更多

采用纯视觉方法！专注于GUI映射的大型多模态模型Aria-UI

StereoCrafter框架：用于将单目（2D）视频转换为沉浸式立体 3D 视频，以满足人们对沉浸式数字体验的需求

通用的多模态运动生成模型LMM：统一并简化动画和视频制作中的多种运动生成任务，如文本生成运动、音乐生成舞蹈等

新型视频语言模型Video-Panda：无需编码器的新方法，用于理解和生成与视频内容相关联的语言描述

微软亚洲研究院推出新型视频自编码器VidTwin

MotiF：通过引导模型关注更多运动区域来改善文本对齐和运动生成

无需图像数据的方法Diff-Instruct（DI）：用于构建符合人类偏好的一步式文生图模型，同时保持生成高度逼真图像的能力

基于扩散模型的创新框架3DHM：根据单张图片和目标3D动作序列来生成人物动画

3D对象生成和重建流程PartGen：可以从文本、图像或非结构化3D对象开始，生成由多个有意义部分组成的3D对象

基于图像扩散先验的深度修复模型DepthLab：从单张图像中生成完整的3D场景

新型视频变分自编码器VideoVAE+：实现高保真视频编码

蒸馏解码DD：用于加速自回归（AR）模型在图像和文本生成任务中的采样步骤

朱雀大模型检测

Fogsight (雾象)

Tripo

新人生 K 线

秒哒

Google AI Studio

新技术

网址

朱雀大模型检测

Fogsight (雾象)

Tripo

新人生 K 线

秒哒

Google AI Studio