新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

新型视频建模架构TRecViT：结合了时间序列处理和空间特征提取的优势，以提高视频理解任务的性能

Google DeepMind发布一种新型的视频建模架构TRecViT（Temporal Recurrent Video Transformer）。这个架构是一种混合模型，它结合了时间序列处理和空间特...

新技术 # TRecViT # 视频建模架构

1年前

03290

视频分词器VidTok：用于将视频内容编码成紧凑的潜在标记

微软研究院、上海交通大学和北京大学的研究人员推出视频分词器VidTok，它是一个多功能且开源的工具，用于将视频内容编码成紧凑的潜在标记（latent tokens）。VidTok在连续和离散标记化方面...

新技术 # VidTok # 视频分词器

1年前

03290

统一多模态框架UniPose：用于理解、生成和编辑人体姿态

中国科学院计算技术研究所和中国科学院大学的研究人员推出统一多模态框架UniPose，它用于理解、生成和编辑人体姿态。UniPose利用大语言模型（LLMs）来处理包括图像、文本和3D SMPL姿态在内...

新技术 # UniPose # 人体姿态 # 多模态

1年前

03290

基于扩散模型的面部匿名化技术：匿名化后的面部与原始照片无缝融合，使其非常适合各种现实世界应用

特伦托大学、奥卢大学和新加坡国立大学的研究人员推出一种基于扩散模型的面部匿名化技术，旨在简化面部匿名化流程，同时保留原始图像中的面部表情、头部姿势、眼神方向和背景元素等关键细节。这种方法有效地掩盖了身...

新技术 # 面部匿名化技术

1年前

03290

通过实现空间可扩展和全景动态场景合成的创新框架DynamicScaler：用于生成高质量、可扩展的全景动态场景视频

随着对沉浸式 AR/VR 应用和空间智能需求的增加，生成高质量的场景级和 360° 全景视频变得尤为重要。然而，大多数视频扩散模型受限于分辨率和宽高比，限制了它们在场景级动态内容合成中的应用。为了解决...

新技术 # DynamicScaler

1年前

03280

无需训练的视频细化框架VideoRepair：自动识别和修复文生视频模型生成中的细粒度不对齐问题

最近的文生视频模型在生成高质量视频方面取得了显著进展，但这些模型生成的视频往往与文本提示存在不对齐的情况，尤其是在处理包含多个对象和属性的复杂场景时。为了解决这一问题，北卡罗来纳大学教堂山分校的研究人...

新技术 # VideoRepair # 视频生成模型

1年前

03280

多服装虚拟试穿技术AnyDressing：能够根据任何组合的服装和个性化文本提示来定制角色形象

字节跳动和清华大学的研究人员提出了一种名为AnyDressing的新方法，专注于解决多服装虚拟试衣任务中的挑战，这项技术特别适用于需要在多种场景和服装组合中保持服装细节的同时，还要忠实于文本提示的应用...

新技术 # AnyDressing # 虚拟试穿

1年前

03260

Echo-4o ：通过利用 GPT-4o 生成的合成图像数据来提升多模态生成模型的性能

上海人工智能实验室、中山大学、香港中文大学和北京大学的研究人员推出 Echo-4o 系统，通过利用 GPT-4o 生成的合成图像数据来提升多模态生成模型（如文本到图像生成、多参考图像生成等任务）的性能...

新技术 # Echo-4o # GPT-4o # 多模态生成模型

7个月前

03250

基于 ComfyUI 平台构建的协作式 AI 系统ComfyMind：打造稳定、灵活、可扩展的通用生成平台

随着生成模型的飞速发展，“通用生成（General-Purpose Generation）”正成为 AI 领域的新焦点。它旨在通过一个统一系统，支持图像、视频、文本等多种模态任务的生成与编辑，为复杂创...

新技术 # ComfyMind # 图像生成 # 视频生成

10个月前

03250

One Shot, One Talk：从单张图像构建全身说话虚拟形象

中国科学技术大学和香港理工大学的研究人员提出了一种名为One Shot, One Talk的新颖流程，旨在解决从单张图像构建全身说话虚拟形象的挑战。该方法解决了两个关键问题：1）复杂的动态建模；2）对...

新技术 # One Shot # One Talk # 虚拟形象

1年前

03250

微软研究院推出 MMInference：为长上下文视觉-语言模型注入加速动力

随着AI技术的不断进步，视觉-语言模型（VLM）在机器人、自动驾驶、医疗保健等领域的应用日益广泛。然而，将长上下文能力与视觉理解相结合虽然显著提升了 VLM 的潜力，但也带来了新的挑战——尤其是在预填...

新技术 # MMInference # 微软

11个月前

03240

Genesis：用于机器人技术及更广泛领域的生成式和通用物理引擎

Genesis 是一个为通用机器人、具身AI和物理AI应用设计的综合性物理仿真平台。它结合了多种功能，旨在提供一个高效、灵活且用户友好的工具，帮助研究人员和开发者在虚拟环境中模拟复杂的物理现象、生成高...

新技术 # Genesis # 通用物理引擎

1年前

03240

加载更多

新型视频建模架构TRecViT：结合了时间序列处理和空间特征提取的优势，以提高视频理解任务的性能

视频分词器VidTok：用于将视频内容编码成紧凑的潜在标记

统一多模态框架UniPose：用于理解、生成和编辑人体姿态

基于扩散模型的面部匿名化技术：匿名化后的面部与原始照片无缝融合，使其非常适合各种现实世界应用

通过实现空间可扩展和全景动态场景合成的创新框架DynamicScaler：用于生成高质量、可扩展的全景动态场景视频

无需训练的视频细化框架VideoRepair：自动识别和修复文生视频模型生成中的细粒度不对齐问题

多服装虚拟试穿技术AnyDressing：能够根据任何组合的服装和个性化文本提示来定制角色形象

Echo-4o ：通过利用 GPT-4o 生成的合成图像数据来提升多模态生成模型的性能

基于 ComfyUI 平台构建的协作式 AI 系统ComfyMind：打造稳定、灵活、可扩展的通用生成平台

One Shot, One Talk：从单张图像构建全身说话虚拟形象

微软研究院推出 MMInference：为长上下文视觉-语言模型注入加速动力

Genesis：用于机器人技术及更广泛领域的生成式和通用物理引擎

OpenMAIC

新悟空

S.H.I.T

Meshy

ArkClaw

Sub2API

新技术

网址

OpenMAIC

新悟空

S.H.I.T

Meshy

ArkClaw

Sub2API