新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

OLA-VLM：提升多模态大语言模型中的视觉感知能力

开发当代多模态大语言模型（MLLMs）的标准做法是将视觉编码器的特征输入到大型语言模型（LLM）中，并通过自然语言监督进行训练。然而，这种方法存在一个潜在的局限性：仅依赖自然语言监督对于MLLM的视觉...

新技术 # OLA-VLM # 多模态大语言模型

1年前

02650

文生图模型SnapGen：能够在移动平台上生成高分辨率和高品质的图像

现有的文本到图像（T2I）扩散模型虽然在生成高质量图像方面表现出色，但面临着几个关键挑战：模型尺寸大：许多先进的T2I模型包含数十亿个参数，导致存储和部署成本高昂。运行时间慢：生成高分辨率图像通常...

新技术 # SnapGen # 文生图模型

1年前

03180

Neural LightRig：从单张图片中准确估计物体的表面法线（normals）和物理基础渲染（PBR）材料

香港中文大学、上海AI实验室和南洋理工大学的研究人员推出新型框架Neural LightRig，它能够从单张图片中准确估计物体的表面法线（normals）和物理基础渲染（PBR）材料。这个框架通过利用...

新技术 # Neural LightRig

1年前

03210

Track4Gen：用于视频生成的空间感知视频生成器

Adobe 研究中心、韩国科学技术院和伦敦大学学院的研究人员推出Track4Gen，这是一个用于视频生成的空间感知视频生成器，它结合了视频扩散损失和跨帧点跟踪，提供了对扩散特征的空间监督，以增强视...

新技术 # Track4Gen

1年前

02980

文本驱动的风格迁移方法StyleStudio：根据文本提示将特定风格的参考图像与目标内容图像结合起来

西湖大学 AGI 实验室、复旦大学、南洋理工大学和香港科技大学（广州）的研究人员推出文本驱动的风格迁移方法StyleStudio，它可以根据文本提示将特定风格的参考图像与目标内容图像结合起来。这种方法...

新技术 # StyleStudio # 风格迁移

1年前

02750

StreamChat：增强大型多模态模型（LMMs）与流媒体视频内容的交互能力

香港中文大学、英伟达、上海人工智能实验室、InnoHK和香港理工大学的研究人员推出新型方法StreamChat，它旨在增强大型多模态模型（LMMs）与流媒体视频内容的交互能力。在流媒体交互场景中，现有...

新技术 # StreamChat # 多模态模型

1年前

03010

视频风格化方法StyleMaster：能够对视频进行艺术化生成和风格转换

香港科技大学和快手的研究人员推出视频风格化方法StyleMaster，它能够对视频进行艺术化生成和风格转换。StyleMaster通过结合全局和局部的风格表示，实现了对视频内容的风格化处理，同时保持了...

新技术 # StyleMaster # 视频风格化

1年前

02830

基于预训练流模型的新型文本驱动图像编辑方法FlowEdit：适用于SD3和Flux模型

使用预训练的文本到图像（T2I）扩散或流模型编辑真实图像是一项具有挑战性的任务。传统的方法通常涉及将目标图像反转为对应的噪声图，然后根据新的文本提示重新生成图像。然而，仅靠反转变换往往无法获得满意的结...

新技术 # FlowEdit # 图像编辑

1年前

03010

强调了结构化注释的使用！用于训练复杂图像-文本模型的大规模数据集LAION-SG

浙江大学、江南大学、北京大学、阿里巴巴集团和蚂蚁集团的研究人员推出一个用于训练复杂图像-文本模型的大规模数据集LAION-SG，特别强调了结构化注释的使用。LAION-SG通过提供场景图（Scene ...

新技术 # LAION-SG # 数据集

1年前

02930

多视角视频生成新技术SynCamMaster：能够从不同的视点生成同步的、一致性高的动态场景视频

浙江大学、快手科技、清华大学和香港中文大学的研究人员推出一种用于多视角视频生成的技术SynCamMaster，能够从不同的视点生成同步的、一致性高的动态场景视频。这项技术特别适用于虚拟拍摄等应用，它通...

新技术 # SynCamMaster # 多视角视频

1年前

03100

用于组合式文生图新框架GraPE：将复杂的多步生成任务分解为三个独立的步骤

文本到图像（T2I）生成任务的目标是从文本提示生成逼真的图像。尽管扩散模型在这一领域取得了显著进展，但现有方法在处理复杂的多步推理和组合性提示时仍面临挑战。特别是，当文本提示包含多个对象及其属性之间的...

新技术 # GraPE # 文生图

1年前

03230

ObjCtrl-2.5D：用于图像到视频（I2V）生成中的训练无关对象控制技术

图像到视频（I2V）生成任务的目标是从单张图像生成一段连贯的视频，通常涉及对目标对象进行空间移动或变形。现有的方法大多依赖于2D轨迹来表示对象的运动，这虽然简单但存在局限性：无法捕捉用户意图：2D轨...

新技术 # ObjCtrl-2.5D # 图生视频

1年前