新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

TransAgent 框架：提升视觉-语言基础模型（比如CLIP）在新领域中的泛化能力

中国科学院深圳先进技术研究院、中国科学院大学、上海人工智能实验室和上海交通大学的研究人员推出一个通用且简洁的 TransAgent 框架，它的目标是提升视觉-语言基础模型（比如CLIP）在新领域中的泛...

新技术 # CLIP模型 # TransAgent 框架

1年前

04900

用于视觉配音的先进框架PersonaTalk：实现高保真和个性化的视觉配音

在音频驱动的视觉配音中，合成准确的口型同步同时保持和突出说话者的“个性”是一个巨大的挑战。现有方法往往未能捕捉到说话者的独特说话风格或保留面部细节。为了解决这一问题，字节跳动提出了 PersonaTa...

新技术 # PersonaTalk # 视觉配音

1年前

04890

新型框架FreeTraj：在视频扩散模型中实现无需调整参数的轨迹控制

南洋理工大学、香港科技大学和腾讯人工智能实验室的研究人员推出新型框架FreeTraj，它用于在视频扩散模型中实现无需调整参数的轨迹控制。简而言之，FreeTraj允许用户在生成视频时精确控制视频中对...

新技术 # FreeTraj # 轨迹控制

2年前

04890

新型框架Cavia：生成具有相机控制功能的多视角视频

德克萨斯大学奥斯汀分校、苹果和谷歌的研究人员推出新型框架Cavia，它能够生成具有相机控制功能的多视角视频。简单来说，Cavia可以根据一张图片和一些相机运动的指令，生成一系列从不同角度和时间点观察的...

新技术 # Cavia

1年前

04860

新型条件图像生成模型BiGR：不仅能创作出高质量的图像，还能理解和识别图像中的内容

香港大学、香港科技大学、云天励飞和香港中文大学的研究人员介绍了一种名为BiGR（Binary Generative Representation）的新型条件图像生成模型。BiGR 使用紧凑的二进制潜在...

新技术 # BiGR # 条件图像生成模型

1年前

04840

新型端到端模型DnD-Transformer：提高了图像生成任务的质量和效率，为图像生成领域带来了新的可能

北京大学、阿里巴巴集团、威斯康星大学麦迪逊分校和北京理工大学的研究人员推出新型端到端模型DnD-Transformer，这是一种用于高效细粒度图像生成的二维自回归Transformer。简单来说，这个...

新技术 # DnD-Transformer # 图像生成

1年前

04840

新型视频生成方法TrackGo：根据用户的输入精确控制视频中对象的运动

北京航空航天大学和爱诗科技的研究人员推出新型视频生成方法TrackGo，它能够根据用户的输入精确控制视频中对象的运动。这项技术允许用户通过自由形式的遮罩（masks）和箭头来指定目标对象或部分，以及它...

新技术 # TrackGo # 视频生成

2年前

04840

基于物理的交互式3D对象动态生成方法PhysDreamer：利用视频生成技术实现与3D物体进行物理交互

来自麻省理工学院、斯坦福大学、哥伦比亚大学和康奈尔大学的研究人员推出PhysDreamer系统，这是一个基于物理的交互式3D对象动态生成方法。PhysDreamer能够使静态的3D对象通过视频生成模...

新技术 # 3D对象 # PhysDreamer

2年前

04820

MineStudio：用于简化《我的世界（Minecraft）》中AI代理开发的开源软件包

北京大学和加州大学洛杉矶分校的研究人员推出MineStudio，这是一个用于简化《我的世界（Minecraft）》中AI代理开发的开源软件包。它通过整合七个关键工程组件（模拟器、数据、模型、离线预训练...

新技术 # MineStudio # 我的世界

12个月前

04790

无需训练的个性化定制RectifID：根据用户提供的参考图像定制化地生成新图像，同时保留原始图像中的身份特征

来自北京大学、快手、电子科技大学和浙江大学的研究人员推出新型图像生成技术RectifID，它能够根据用户提供的参考图像定制化地生成新图像，同时保留原始图像中的身份特征。简单来说，这项技术可以帮助我们在...

新技术 # RectifID # 个性化定制

2年前

04790

FRESCO：将输入的视频转换成具有特定风格的新视频，同时保持视频中的语义内容和动作的连贯性

来自北京大学和南洋理工大学的研究团队推出FRESCO，这是一个用于视频转换的零样本（Zero-Shot）方法。简单来说，FRESCO能够根据文本提示，将输入的视频转换成具有特定风格的新视频，同时保持视...

新技术 # FRESCO # 视频转换

2年前

04790

EvolveDirector 框架：通过使用公开可用的资源来训练一个能够与高级文生图模型相媲美的模型

近年来，生成模型在生成高质量图像方面取得了显著进展，但大多数模型依赖于专有的高质量数据集，并且有些模型保留了其参数，只提供可访问的应用程序编程接口（APIs）。这限制了这些模型在下游任务中的应用。为了...

新技术 # EvolveDirector # 文生图模型

1年前

04780

加载更多

TransAgent 框架：提升视觉-语言基础模型（比如CLIP）在新领域中的泛化能力

用于视觉配音的先进框架PersonaTalk：实现高保真和个性化的视觉配音

新型框架FreeTraj：在视频扩散模型中实现无需调整参数的轨迹控制

新型框架Cavia：生成具有相机控制功能的多视角视频

新型条件图像生成模型BiGR：不仅能创作出高质量的图像，还能理解和识别图像中的内容

新型端到端模型DnD-Transformer：提高了图像生成任务的质量和效率，为图像生成领域带来了新的可能

新型视频生成方法TrackGo：根据用户的输入精确控制视频中对象的运动

基于物理的交互式3D对象动态生成方法PhysDreamer：利用视频生成技术实现与3D物体进行物理交互

MineStudio：用于简化《我的世界（Minecraft）》中AI代理开发的开源软件包

无需训练的个性化定制RectifID：根据用户提供的参考图像定制化地生成新图像，同时保留原始图像中的身份特征

FRESCO：将输入的视频转换成具有特定风格的新视频，同时保持视频中的语义内容和动作的连贯性

EvolveDirector 框架：通过使用公开可用的资源来训练一个能够与高级文生图模型相媲美的模型

新悟空

新OpenMAIC

S.H.I.T

Meshy

ArkClaw

CutCut

新技术

网址

新悟空

新OpenMAIC

S.H.I.T

Meshy

ArkClaw

CutCut