新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

字节跳动Pico团队推出新型框架EX-4D：从单目视频生成高质量的极端视角 4D 视频

字节跳动Pico团队推出新型框架EX-4D，旨在从单目视频生成高质量的极端视角 4D 视频。该框架通过深度防水网格（Depth Watertight Mesh, DW-Mesh）表示法，有效处理边界遮...

新技术 # EX-4D # 字节跳动

9个月前

03390

基于注意力的运动扩散模型MotionCLR：无需额外的训练实现人体动作生成

人类运动生成的交互式编辑是一个重要的研究领域，特别是在动画、游戏和虚拟现实等应用中。然而，现有的运动扩散模型存在两个主要问题：缺乏对词级文本-运动对应关系的显式建模：这限制了模型在细粒度编辑方面的能...

新技术 # MotionCLR # 人体动作生成

1年前

03390

Anthropic发布AI安全性研究：链式推理（CoT）的忠实度评估

Anthropic最近发布了一篇关于推理模型的链式推理（CoT）忠实度的研究论文。这项研究深入探讨了CoT在AI安全中的应用，尤其是其在监控模型意图和推理过程中的有效性。研究背景 CoT的重要性链...

新技术 # Anthropic # CoT # 思维链

12个月前

03370

高度灵活的组合式时尚图像生成模型FashionComposer

在时尚设计和虚拟试穿领域，传统的图像生成方法往往受限于单一的输入模式（如仅支持文本提示或单个参考图像），并且难以处理复杂的个性化需求，如多件服装的组合、多样化的姿势和人体形态。为了克服这些局限性，香港...

新技术 # FashionComposer # 虚拟试穿

1年前

03370

新型检索增强生成（RAG）框架 ViDoRAG：专门用于处理视觉丰富文档中的复杂推理任务

中国科学技术大学、阿里通义实验室和上海交通大学的研究人员推出新型检索增强生成（RAG）框架 ViDoRAG，专门用于处理视觉丰富文档中的复杂推理任务。该框架通过动态迭代推理代理（agents）和多模态...

新技术 # ViDoRAG # 检索增强生成

1年前

03360

实例感知结构化字幕框架InstanceCap：实现实例级和细粒度的视频字幕生成，显著提升了字幕与视频之间的一致性和保真度

近年来，文本到视频生成技术取得了显著进展，但现有的视频字幕生成方法仍然存在一些问题：细节不足：传统的视频字幕往往缺乏对视频中物体和场景的细粒度描述，导致生成的视频在细节上不够丰富。幻觉现象：由于模...

新技术 # InstanceCap # 字幕

1年前

03360

并行自回归视觉生成方法PAR：通过并行生成视觉标记来加速图像和视频的生成过程，同时确保生成质量

自回归模型在视觉生成领域表现出色，但其逐个预测token的顺序过程导致了推理速度较慢。为了解决这一问题，香港大学、字节跳动和北京大学的研究人员提出了一种简单而有效的并行自回归视觉生成方法——PAR（P...

新技术 # PAR

1年前

03340

用于组合式文生图新框架GraPE：将复杂的多步生成任务分解为三个独立的步骤

文本到图像（T2I）生成任务的目标是从文本提示生成逼真的图像。尽管扩散模型在这一领域取得了显著进展，但现有方法在处理复杂的多步推理和组合性提示时仍面临挑战。特别是，当文本提示包含多个对象及其属性之间的...

新技术 # GraPE # 文生图

1年前

03320

专门为I2V模型量身定制的大规模数据集TIP-I2V：包含了超过170万独特的用户提供的文本和图像提示

AI驱动的视频生成领域正在迅速发展，图像到视频（I2V）模型因其视觉一致性和增强的可控性而处于前沿。然而，一个显著的差距一直存在：缺乏专门的数据集来理解图像到视频提示的独特需求。为了填补这一空白，悉尼...

新技术 # TIP-I2V # 图生视频模型

1年前

03320

新型视觉生成模型RAR：在通过自回归建模提高图像生成任务的性能，同时保持与语言模型框架的完全兼容性

字节跳动推出一种新型视觉生成模型——随机自回归视觉生成（Randomized AutoRegressive Visual Generation，简称RAR）。该模型旨在通过自回归建模提高图像生成任务的...

新技术 # RAR模型 # 随机自回归视觉生成

1年前

03320

新型图像编辑框架PixelMan：基于扩散模型，通过像素操作和生成来实现一致性的对象编辑

阿尔伯塔大学电子与计算机工程系、华为技术加拿大公司和华为麒麟解决方案的研究人员推出新型图像编辑框架PixelMan，它基于扩散模型（Diffusion Models, DMs），通过像素操作和生成来实...

新技术 # PixelMan # 图像编辑

1年前

03310

新型图像到视频生成技术 Frame In-N-Out：突破传统视频生成中帧边界限制，实现更自由、更具创意的视频生成效果

弗吉尼亚大学和Adobe Research的研究人员推出新型图像到视频生成技术 Frame In-N-Out，突破传统视频生成中帧边界限制，实现更自由、更具创意的视频生成效果。具体来说，Frame I...

新技术 # Frame In-N-Out # 图生视频

10个月前

03300

加载更多

字节跳动Pico团队推出新型框架EX-4D：从单目视频生成高质量的极端视角 4D 视频

基于注意力的运动扩散模型MotionCLR：无需额外的训练实现人体动作生成

Anthropic发布AI安全性研究：链式推理（CoT）的忠实度评估

高度灵活的组合式时尚图像生成模型FashionComposer

新型检索增强生成（RAG）框架 ViDoRAG：专门用于处理视觉丰富文档中的复杂推理任务

实例感知结构化字幕框架InstanceCap：实现实例级和细粒度的视频字幕生成，显著提升了字幕与视频之间的一致性和保真度

并行自回归视觉生成方法PAR：通过并行生成视觉标记来加速图像和视频的生成过程，同时确保生成质量

用于组合式文生图新框架GraPE：将复杂的多步生成任务分解为三个独立的步骤

专门为I2V模型量身定制的大规模数据集TIP-I2V：包含了超过170万独特的用户提供的文本和图像提示

新型视觉生成模型RAR：在通过自回归建模提高图像生成任务的性能，同时保持与语言模型框架的完全兼容性

新型图像编辑框架PixelMan：基于扩散模型，通过像素操作和生成来实现一致性的对象编辑

新型图像到视频生成技术 Frame In-N-Out：突破传统视频生成中帧边界限制，实现更自由、更具创意的视频生成效果

新悟空

OpenMAIC

Meshy

S.H.I.T

Sub2API

ArkClaw

新技术

网址

新悟空

OpenMAIC

Meshy

S.H.I.T

Sub2API

ArkClaw