新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

虚拟脱衣TryOffAnyone：从穿着服装的人身上生成高保真平铺服装图像

多伦多大学和帕特雷大学的研究人员推出TryOffAnyone，这是一个从穿着服装的人身上生成高保真平铺服装图像的技术。这项技术对于时尚行业来说非常重要，因为它可以增强在线购物体验，提供个性化推荐、服装...

新技术 # TryOffAnyone # 虚拟脱衣

1年前

09010

视频流翻译方法Live2Diff：专为直播视频转换设计的时间单向注意力视频扩散模型

上海人工智能实验室、马克斯普朗克信息研究所和南洋理工大学的研究人员推出视频流翻译方法Live2Diff（LIVE2DIFF），它利用了单向注意力机制在视频扩散模型中，专门为直播视频流设计。这种方法的核...

新技术 # Live2Diff # 直播

2年前

09010

小冰推出Portrait4D-v2：创建出逼真的4D头部头像

小冰推出Portrait4D-v2，它能够创建出逼真的4D头部头像。4D头像不仅具有三维的立体形状，还能随着时间变化而展示出不同的面部表情和头部动作，就像活生生的人一样。这项技术的应用前景非常广泛，比...

新技术 # 4D头部头像 # Portrait4D-v2

2年前

09000

虚拟服装试穿技术IDM-VTON：根据一个人的图片和一件衣服的图片，生成这个人穿上这件衣服的图像

来自韩国科学技术院和OMNIOUS.AI的研究人员推出虚拟服装试穿技术IDM-VTON，该技术能够根据分别描绘人物和服装的图像对，渲染出人物穿着精选服装的视觉效果。虚拟试穿是一种计算机视觉技术，它可以...

新技术 # IDM-VTON # 虚拟服装试穿 # 虚拟试穿

2年前

08970

视觉-语言适配器PaLM2-VAdapter：将传统的视觉编码器和大语言模型结合起来

PaLM2-VAdapter模型的主要目的是更有效地连接视觉编码器和大语言模型，以提高它们之间的协同工作效果。论文它能够有效地将传统的视觉编码器（vision encoders）和大语言模型（LL...

新技术 # PaLM2-VAdapter # 大语言模型 # 视觉编码器

2年前

08970

AI视频编辑工具LAVE：利用大语言模型（LLMs）来辅助用户进行视频编辑

来自加州大学圣地亚哥分校和Meta的研究人员推出AI视频编辑工具LAVE（LLM-Powered Agent Assistance and Language Augmentation for Vide...

新技术 # AI视频编辑 # LAVE

2年前

08940

新型图像压缩技术CMC（模态压缩）：利用大型多模态模型来实现图像到文本再到图像的转换，从而在保持图像质量的同时，大幅度减小图像的大小

上海交通大学和南洋理工大学的研究人员推出一种新型的图像压缩技术“跨模态压缩”（Cross Modality Compression，简称CMC）。这项技术的核心思想是利用大型多模态模型（Large M...

新技术 # CMC # CMC-Bench # 图像压缩

2年前

08910

基于SAM的新型视觉模型Open-Vocabulary SAM：交互式的图像分割和识别

来自南洋理工大学、上海AI实验室的研究人员推出了一款基于SAM的新型视觉模型Open-Vocabulary SAM，它结合了Segment Anything Model（SAM）和CLIP模型的优势...

新技术 # Open-Vocabulary SAM # SAM # 图像分割

2年前

08910

清华大学和新畅元科技推出Human4DiT：能够根据单幅图像及任意视点生成高质量、时空连贯的人类视频

清华大学和新畅元科技推出新技术Human4DiT，它是一种用于生成高质量、时空一致的人类视频的4D扩散变换器（4D Diffusion Transformer）。这项技术可以从单张图片生成逼真的人类动...

新技术 # Human4DiT # 新畅元科技 # 清华大学

2年前

08900

FontStudio系统：为多语言字体生成文字特效，创造具有艺术感的字体效果

微软亚洲研究院和利物浦大学推出FontStudio系统，它是一个基于现代扩散模型的文本到图像生成系统，专门用来创造具有艺术感的字体效果。例如，你想在电脑上设计一个独特的字体，比如让字母'A'看起来像一...

新技术 # FontStudio # 字体

2年前

08890

新型图像生成模型EMMA：能够接受多模态提示，并生成高质量的图像

南洋理工大学和腾讯的研究人员推出新型图像生成模型EMMA，它基于最先进的文本到图像（T2I）扩散模型ELLA，能够接受多模态提示（multi-modal prompts），并生成高质量的图像。简单来说...

新技术 # ELLA # EMMA # 图像生成

2年前

08890

IDEA研究院推出先进开集目标检测模型系列Grounding DINO 1.5：推动开放集对象检测技术的边界

IDEA研究院（粤港澳大湾区数字经济研究院）推出先进模型系列Grounding DINO 1.5，旨在推动开放集对象检测技术的边界。开放集对象检测是一种计算机视觉任务，它要求模型能够识别图像中的对象...

新技术 # Grounding DINO 1.5 # 开集目标检测模型

2年前

08870

加载更多