新技术

百科工具模型 ComfyUI AI合集 web UI 提示词

教程新技术硬件科普早报

排序

发布更新浏览点赞

新型SD加速模型PCM：解决在高分辨率、文本条件图像生成中的一些现有问题而设计

香港中文大学、 Avolution AI 、Hedra、上海人工智能实验室、商汤和斯坦福大学的研究人员推出新的SD加速模型PCM（Phased Consistency Model，分阶段一致性模型...

2年前

01,3720

新型视频扩散模型StreamV2V：实现实时的视频到视频转换

德克萨斯大学奥斯汀分校和加州大学伯克利分校的研究人员推出新型视频扩散模型StreamV2V，它能够实现实时的视频到视频（Video-to-Video，简称V2V）翻译。这项技术允许用户通过提示（pro...

新技术 # StreamV2V # 视频扩散模型

2年前

05850

新型视频生成技术“CVD（协作视频扩散）”：生成从多个不同摄像机轨迹视角下观察同一场景的一致性视频

斯坦福大学和香港中文大学的研究人员推出新型视频生成技术“协作视频扩散”（Collaborative Video Diffusion，简称CVD），这项技术的核心目标是能够生成从多个不同摄像机轨迹视角下...

新技术 # CVD # 协作视频扩散 # 视频生成

2年前

01,0240

清华大学和新畅元科技推出Human4DiT：能够根据单幅图像及任意视点生成高质量、时空连贯的人类视频

清华大学和新畅元科技推出新技术Human4DiT，它是一种用于生成高质量、时空一致的人类视频的4D扩散变换器（4D Diffusion Transformer）。这项技术可以从单张图片生成逼真的人类动...

新技术 # Human4DiT # 新畅元科技 # 清华大学

2年前

08670

谷歌推出贪婪生长方法（Greedy Growing）：用来训练大规模、高分辨率的基于像素的图像扩散模型

谷歌发布论文讨论了一个非常有趣的话题：如何通过一种称为“贪婪生长”（Greedy Growing）的方法来训练大规模、高分辨率的基于像素的图像扩散模型，且无需级联超分辨率组件。简单来说，就是科学家们找...

新技术 # Greedy Growing # 谷歌 # 贪婪生长

2年前

06360

谷歌推出新采样方法EM Distillation（EMD）：用于提高扩散模型（diffusion models）的采样效率

谷歌推出新采样方法EM Distillation（EMD），用于提高扩散模型（diffusion models）的采样效率。扩散模型是一种强大的生成模型，能够学习复杂的数据分布并生成高质量的图像、视频...

新技术 # EM Distillation # EMD # 采样方法

2年前

06880

英伟达推出新型大语言模型嵌入模型NV-Embed：专门设计用于提高文本嵌入任务的性能

英伟达推出新型大语言模型嵌入模型NV-Embed，NV-Embed专门设计用于提高文本嵌入任务的性能，它在多种文本嵌入任务上的表现开始超越了基于BERT或T5的嵌入模型，包括基于密集向量的检索。NV...

新技术 # NV-Embed # 嵌入模型

2年前

09710

新型视频重建模型Vidu4D：能够从单个生成的视频创建高保真的4D重建

清华大学、生数科技和同济大学的研究人员推出新型视频重建模型Vidu4D，它能够从单个生成的视频创建高保真的4D重建（即连续的3D表示）。这项技术的核心是处理非刚性物体的动态变化和视频帧的失真问题，这对...

新技术 # Vidu4D # 视频重建模型

2年前

05640

新颖HDR视图合成技术HDR-GS：高效地生成新的HDR视角图像，并依据用户指定的曝光时间重建LDR图像

约翰·霍普金斯大学、香港科技大学（广州）、清华大学和上海交通大学的研究人员推出一种新型的高动态范围（HDR）图像的新颖视图合成技术HDR-GS（High Dynamic Range Gaussian ...

新技术 # HDR-GS

2年前

05010

阿里推出新型大型多模态模型ConvLLaVA：专门设计用于处理高分辨率的视觉数据

清华大学和阿里巴巴的研究人员推出新型大型多模态模型ConvLLaVA，它专门设计用于处理高分辨率的视觉数据。多模态模型能够理解和处理多种类型的数据，比如文本、图像和视频，这使得它们在各种应用场景中都非...

新技术 # ConvLLaVA # 多模态模型 # 阿里巴巴

2年前

07200

新型实时端到端目标检测系统YOLOv10：快速地识别图像中的多个对象，并且告诉用户这些对象的具体位置

清华大学的研究人员推出新型实时端到端目标检测系统YOLOv10，目标检测是计算机视觉领域的一个重要任务，它的目的是识别出图像中的对象，并确定它们的位置。例如，你在玩一个视频游戏，需要快速识别并射击屏幕...

新技术 # YOLOv10 # 清华大学 # 目标检测

2年前

01,1320

谷歌推出CamViG：控制视频生成过程中的相机视角，从而生成具有精确相机运动的视频

Google Research推出CamViG（Camera Aware Image-to-Video Generation），它能够根据单一图像和三维相机运动信号生成视频。这项技术的核心在于，它能够...

新技术 # CamViG # 相机运动 # 谷歌

2年前

07380

加载更多