新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

统一的控制视频生成方法AnimateAnything：实现对视频内容的精确和一致性的操控，包括相机轨迹、文本提示和用户运动注释等多种条件

视频生成是一个复杂而多样的任务，涉及多个条件的控制，如摄像机轨迹、文本提示和用户运动注释。现有的方法通常只能在特定条件下生成视频，缺乏灵活性和一致性。为了解决这些问题，浙江大学 CAD&CG ...

新技术 # AnimateAnything # 视频生成

1年前

03500

Orient Anything：用于从单张图片中估计物体的方向

浙江大学、Sea AI实验室和香港大学的研究人员推出一个名为“Orient Anything”的方法，它用于从单张图片中估计物体的方向。这种方法特别关注于理解物体在图像中的空间姿态和排列，这对于计算机...

新技术 # Orient Anything

1年前

03490

MEMO：用于生成富有表情的、与音频同步的说话视频的端到端音频驱动肖像动画技术

天工 AI、南洋理工大学和新加坡国立大学的研究人员提出了MEMO（Memory-Guided Emotion-Aware Diffusion），这是一种端到端的音频驱动肖像动画方法，旨在生成身份一致且...

新技术 # MEMO # 肖像动画

1年前

03480

整数低秩参数微调量化扩散模型IntLoRA：提升了文生图模型微调的效率

近年来，文生图模型在各种下游任务中取得了显著的成果。然而，微调这些大型模型所需的计算资源非常庞大，限制了其在个性化定制和实际应用中的普及。为了解决这一问题，研究人员开始探索参数高效微调（PEFT）技术...

新技术 # IntLoRA

1年前

03480

Meta开源的人体动作生成模型Meta Motivo：生成符合物理规律的复杂的全身动作

Meta Motivo 是一个创新的行为基础模型，旨在通过一种新的无监督强化学习（RL）算法——前向-后向表示与条件策略正则化（FB-CPR），来控制复杂虚拟人形代理的运动。该模型能够在测试时通过提示...

新技术 # Meta Motivo

1年前

03470

Neural LightRig：从单张图片中准确估计物体的表面法线（normals）和物理基础渲染（PBR）材料

香港中文大学、上海AI实验室和南洋理工大学的研究人员推出新型框架Neural LightRig，它能够从单张图片中准确估计物体的表面法线（normals）和物理基础渲染（PBR）材料。这个框架通过利用...

新技术 # Neural LightRig

1年前

03470

数据增强方法MaskRIS：用于改进指代表像分割任务的性能

延世大学、NAVER AI LAB和韩国科学技术研究院的研究人员推出一种新的数据增强方法，名为MaskRIS（Masked Referring Image Segmentation），它用于改进指代表...

新技术 # MaskRIS

1年前

03470

韩国科学技术院推出TIC-FT：用时间上下文微调解锁视频扩散模型的精准控制

在视频生成领域，我们正见证一场静默但深刻的变革。随着文本到视频扩散模型的质量不断提升，其输出已接近专业制作水平。然而，如何实现对视频生成过程的精确控制——例如根据特定图像或短片引导视频风格、动作或构图...

新技术 # TIC-FT # 时间上下文微调

10个月前

03460

谷歌推出LightLab：基于扩散模型的AI工具，实现单张图像中的精细光照控制

在图像后期处理中，操控光照条件一直是一个复杂且具有挑战性的任务。传统方法依赖于3D图形技术，通过多次捕获重建场景的几何结构和属性，并利用物理光照模型模拟新的光照效果。尽管这些技术提供了对光源的明确控制...

新技术 # LightLab # 光照控制 # 谷歌

10个月前

03450

新型框架VideoMaker：实现高质量的零样本（zero-shot）定制化视频生成

浙江大学计算机科学与技术学院、腾讯PCG ARC实验室、腾讯AI实验室和华为诺亚方舟实验室的研究人员推出新型框架VideoMaker，它能够实现高质量的零样本（zero-shot）定制化视频生成。这个...

新技术 # VideoMaker

1年前

03440

港大、浙大联合快手提出Context-as-Memory：解决交互式长视频生成的场景一致性难题

香港大学、浙江大学与快手可灵团队的研究人员，针对当前交互式长视频生成中“场景易断裂、历史上下文难复用”的痛点，提出 Context-as-Memory（上下文即记忆）方法。该方法通过将历史帧直接作为...

新技术 # Context-as-Memory # 场景一致性

7个月前

03430

模型变强了，内部表示就更好了吗？MIT等提出“碎片化纠缠表示（FER）”假说

当我们看到大模型在各种任务上不断刷新性能纪录时，一个隐含的信念常常浮现：性能提升 = 内部表示更优。这种观点被称为“表示乐观主义”（Representational Optimism）——即认为随着模...

新技术 # FER # 碎片化纠缠表示

7个月前

03430

加载更多

统一的控制视频生成方法AnimateAnything：实现对视频内容的精确和一致性的操控，包括相机轨迹、文本提示和用户运动注释等多种条件

Orient Anything：用于从单张图片中估计物体的方向

MEMO：用于生成富有表情的、与音频同步的说话视频的端到端音频驱动肖像动画技术

整数低秩参数微调量化扩散模型IntLoRA：提升了文生图模型微调的效率

Meta开源的人体动作生成模型Meta Motivo：生成符合物理规律的复杂的全身动作

Neural LightRig：从单张图片中准确估计物体的表面法线（normals）和物理基础渲染（PBR）材料

数据增强方法MaskRIS：用于改进指代表像分割任务的性能

韩国科学技术院推出TIC-FT：用时间上下文微调解锁视频扩散模型的精准控制

谷歌推出LightLab：基于扩散模型的AI工具，实现单张图像中的精细光照控制

新型框架VideoMaker：实现高质量的零样本（zero-shot）定制化视频生成

港大、浙大联合快手提出Context-as-Memory：解决交互式长视频生成的场景一致性难题

模型变强了，内部表示就更好了吗？MIT等提出“碎片化纠缠表示（FER）”假说

新悟空

Meshy

S.H.I.T

OpenMAIC

CutCut

ArkClaw

新技术

网址

新悟空

Meshy

S.H.I.T

OpenMAIC

CutCut

ArkClaw