新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

零样本视频对象插入框架VideoAnydoor：能够在视频中高精度地插入给定对象，并且允许用户精确控制对象的运动

由香港大学和阿里巴巴达摩院等机构的研究团队推出零样本视频对象插入框架VideoAnydoor ，它能够在视频中高精度地插入给定对象，并且允许用户精确控制对象的运动。这项技术的核心挑战在于既要保留参考对...

新技术 # VideoAnydoor # 视频对象插入

12个月前

03160

Stability AI 推出一种基于大规模 Transformer 架构的新型音频编码模型TAAE

在语音处理领域，标记化（tokenization）是生成或理解语音的关键步骤。传统的语音编码模型通常依赖于低参数量的架构，使用具有强归纳偏置的组件，如卷积神经网络（CNN）和循环神经网络（RNN）。然...

新技术 # Stability AI # TAAE

12个月前

02940

虚拟脱衣TryOffAnyone：从穿着服装的人身上生成高保真平铺服装图像

多伦多大学和帕特雷大学的研究人员推出TryOffAnyone，这是一个从穿着服装的人身上生成高保真平铺服装图像的技术。这项技术对于时尚行业来说非常重要，因为它可以增强在线购物体验，提供个性化推荐、服装...

新技术 # TryOffAnyone # 虚拟脱衣

12个月前

07840

PERSE：从单张肖像图像创建一个可动的个性化3D生成头像

首尔国立大学的研究人员提出了一种名为PERSE的创新方法，用于从参考肖像构建可动画化、个性化的生成头像，从单张肖像图像创建一个可动的个性化3D生成头像（avatar）。PERSE 的核心优势在于它能够...

新技术 # PERSE

12个月前

02710

即插即用的美学适配器VMix：提升生成图像的质量，特别是在视觉审美维度上，如颜色、光线、构图等方面

尽管扩散模型（Diffusion Models）在文本到图像生成方面展现了非凡的才能，但在生成高度美学图像方面仍存在不足。具体来说，生成图像与真实世界美学图像在更细粒度的维度（如色彩、光影、构图等）上...

新技术 # VMix # 美学适配器

12个月前

02900

Bringing Objects to Life：将静态的3D对象转换成4D动画（即动态的3D对象），这个过程是通过文本提示来控制的

巴伊兰大学和英伟达的研究人员推出一种名为3to4D的方法，它能够将静态的3D对象转换成4D动画（即动态的3D对象），这个过程是通过文本提示来控制的。这种方法允许用户为提供的3D模型添加动态行为，模拟对...

新技术 # 3to4D

12个月前

02840

图像编辑框架Edicho：能够在野外环境（即非受控环境）中实现一致性的图像编辑

在处理真实场景图像时，实现一致的编辑效果是一个长期存在的技术挑战。这主要由于物体姿态、光照条件和摄影环境等不可控因素的影响。为了应对这些挑战，香港科技大学、蚂蚁集团、斯坦福大学和香港中文大学的研究人员...

新技术 # Edicho # 图像编辑框架

12个月前

02670

新型框架VideoMaker：实现高质量的零样本（zero-shot）定制化视频生成

浙江大学计算机科学与技术学院、腾讯PCG ARC实验室、腾讯AI实验室和华为诺亚方舟实验室的研究人员推出新型框架VideoMaker，它能够实现高质量的零样本（zero-shot）定制化视频生成。这个...

新技术 # VideoMaker

12个月前

03050

自动图形设计构图方法LaDeCo：从多模态图形元素自动组成一个协调、平衡且视觉上令人愉悦的图形设计

随着技术的进步，自动化的图形设计工具正在逐渐改变我们创造视觉内容的方式。然而，现有的生成模型往往局限于特定的子任务，并未能全面地处理设计组合这一复杂过程。为了克服这些限制，西安交通大学与微软研究院联手...

新技术 # LaDeCo # 自动图形设计

12个月前

02360

Orient Anything：用于从单张图片中估计物体的方向

浙江大学、Sea AI实验室和香港大学的研究人员推出一个名为“Orient Anything”的方法，它用于从单张图片中估计物体的方向。这种方法特别关注于理解物体在图像中的空间姿态和排列，这对于计算机...

新技术 # Orient Anything

12个月前

02890

任务偏好优化TPO：通过视觉任务对齐来提升多模态大语言模型的性能

上海人工智能实验室、浙江大学、中国科学技术大学、上海交通大学、中国科学院深圳先进技术研究院和南京大学的研究人员推出一种名为任务偏好优化（Task Preference Optimization, TP...

新技术 # TPO # 任务偏好优化 # 多模态大语言模型

12个月前

02920

1.58-bit FLUX：将FLUX.1-dev量化到1.58位权重的方法

字节跳动和浦项科技大学的研究人员推出1.58-bit FLUX，这是第一个成功将最先进的文本到图像生成模型FLUX.1-dev量化到1.58位权重的方法。通过这种方法，我们能够在不损失生成质量的情况下...

新技术 # 1.58-bit FLUX

12个月前

02780

加载更多

零样本视频对象插入框架VideoAnydoor：能够在视频中高精度地插入给定对象，并且允许用户精确控制对象的运动

Stability AI 推出一种基于大规模 Transformer 架构的新型音频编码模型TAAE

虚拟脱衣TryOffAnyone：从穿着服装的人身上生成高保真平铺服装图像

PERSE：从单张肖像图像创建一个可动的个性化3D生成头像

即插即用的美学适配器VMix：提升生成图像的质量，特别是在视觉审美维度上，如颜色、光线、构图等方面

Bringing Objects to Life：将静态的3D对象转换成4D动画（即动态的3D对象），这个过程是通过文本提示来控制的

图像编辑框架Edicho：能够在野外环境（即非受控环境）中实现一致性的图像编辑

新型框架VideoMaker：实现高质量的零样本（zero-shot）定制化视频生成

自动图形设计构图方法LaDeCo：从多模态图形元素自动组成一个协调、平衡且视觉上令人愉悦的图形设计

Orient Anything：用于从单张图片中估计物体的方向

任务偏好优化TPO：通过视觉任务对齐来提升多模态大语言模型的性能

1.58-bit FLUX：将FLUX.1-dev量化到1.58位权重的方法

朱雀大模型检测

Fogsight (雾象)

Tripo

新人生 K 线

秒哒

Google AI Studio

新技术

网址

朱雀大模型检测

Fogsight (雾象)

Tripo

新人生 K 线

秒哒

Google AI Studio