新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

大型多模态模型VideoGLaMM：专为用户提供的文本输入进行视频中细粒度像素级定位而设计

视频与文本之间的细粒度对齐是一个具有挑战性的问题，因为视频中存在复杂的空间和时间动态。现有的基于视频的大型多模态模型（LMMs）虽然可以处理基本对话，但在视频中进行精确的像素级定位方面存在困难。大型...

新技术 # VideoGLaMM # 大型多模态模型

1年前

05790

可控图像到视频生成框架SG-I2V：用于在图像到视频的生成过程中实现对象和相机运动的控制

图像到视频生成技术已经取得了显著的进步，能够生成高度逼真的视频。然而，调整生成视频中的特定元素，如物体运动或相机移动，通常需要繁琐的试错过程，例如使用不同的随机种子重新生成视频。最近的技术通过微调预训...

新技术 # SG-I2V # 视频生成

1年前

04730

DimensionX框架：从单张图像生成逼真的3D和4D场景，实现对空间和时间维度的可控生成

香港科技大学、清华大学和生数科技的研究人员推出一个名为DimensionX的框架，它能够从单张图片生成高逼真度的3D和4D场景，并且通过视频扩散技术（video diffusion）实现对空间和时间维...

新技术 # DimensionX

1年前

07600

新的4位量化方法SVDQuant：通过量化权重和激活值为4位来加速模型的推理过程，同时保持图像质量

扩散模型因其在生成高保真图像方面的卓越能力而备受关注。然而，这些模型在内存和计算方面的要求非常高，这限制了它们在消费级设备和需要低延迟的应用中的部署。为了解决这些问题，研究人员提出了多种技术，包括后训...

新技术 # SVDQuant # 量化方法

1年前

07660

ReCapture：从单个用户视频生成具有新颖摄像机轨迹的新视频

最近的视频建模技术取得了显著进展，使得在生成的视频中可以控制摄像机轨迹。然而，这些方法通常不能直接应用于用户提供的视频，因为这些视频不是由视频模型生成的。为了解决这一问题，谷歌和新加坡国立大学的研究人...

新技术 # ReCapture # 摄像机轨迹

1年前

04020

专门为I2V模型量身定制的大规模数据集TIP-I2V：包含了超过170万独特的用户提供的文本和图像提示

AI驱动的视频生成领域正在迅速发展，图像到视频（I2V）模型因其视觉一致性和增强的可控性而处于前沿。然而，一个显著的差距一直存在：缺乏专门的数据集来理解图像到视频提示的独特需求。为了填补这一空白，悉尼...

新技术 # TIP-I2V # 图生视频模型

1年前

03320

基于注意力的运动扩散模型MotionCLR：无需额外的训练实现人体动作生成

人类运动生成的交互式编辑是一个重要的研究领域，特别是在动画、游戏和虚拟现实等应用中。然而，现有的运动扩散模型存在两个主要问题：缺乏对词级文本-运动对应关系的显式建模：这限制了模型在细粒度编辑方面的能...

新技术 # MotionCLR # 人体动作生成

1年前

03390

GenXD：能够从任意数量的条件图像生成高质量的3D和4D场景

近年来，2D视觉生成取得了显著成功，但在3D和4D生成方面，由于缺乏大规模数据和有效的模型设计，实际应用仍然具有挑战性。新加坡国立大学和微软的研究人员推出了一个名为GenXD的模型，它能够从任意数量的...

新技术 # 3D # GenXD

1年前

05950

3D纹理生成框架MVPaint：根据文本指令自动生成高分辨率、无缝的3D纹理

腾讯PCG、上海人工智能实验室、南洋理工大学S-Lab和清华大学的研究人员推出3D纹理生成框架MVPaint，它能够根据文本指令自动生成高分辨率、无缝的3D纹理。MVPaint通过同步多视图扩散模型来...

新技术 # 3D纹理生成 # MVPaint

1年前

04560

AutoVFX：基于自然语言指令的自动视觉效果生成

现代视觉效果（VFX）软件使熟练的艺术家能够创造出几乎任何图像，但创作过程仍然费力、复杂，并且对普通用户来说基本上是不可访问的。为了简化这一过程，伊利诺伊大学厄巴纳-香槟分校的研究人员提出了AutoV...

新技术 # AutoVFX

1年前

06760

苹果推出基于最优传输理论的通用框架ACT：用于控制大型生成模型的生成过程

大型生成模型（如大语言模型LLMs和文本到图像扩散模型T2Is）的能力不断增强，但其日益广泛的部署也引发了对可靠性和安全性的担忧。为了解决这些问题，研究人员提出了通过引导模型激活来控制模型生成的方法...

新技术 # ACT # 大语言模型 # 文生图模型

1年前

05050

Meta推出创新方案AdaCache（自适应缓存）：不进行额外训练的情况下加速视频生成

视频生成是AI研究的一个热点领域，特别是在生成时间上一致、高保真的视频方面。这一领域涉及创建在帧之间保持视觉连贯性并在时间上保留细节的视频序列。近年来，机器学习模型，尤其是扩散变换器（DiTs），已成...

新技术 # AdaCache # Meta AI # 自适应缓存

1年前

03950

加载更多