RankDPO:提高模型在遵循文本提示和视觉质量方面的表现直接偏好优化(DPO)已成为一种强大的方法,用于将文本到图像(T2I)模型与人类反馈对齐。然而,成功应用DPO需要大量的资源来收集和标注大规模数据集,例如数百万张生成的人类偏好注释的配对图像。此外,随...新技术# RankDPO1年前04660
FRESCO:将输入的视频转换成具有特定风格的新视频,同时保持视频中的语义内容和动作的连贯性来自北京大学和南洋理工大学的研究团队推出FRESCO,这是一个用于视频转换的零样本(Zero-Shot)方法。简单来说,FRESCO能够根据文本提示,将输入的视频转换成具有特定风格的新视频,同时保持视...新技术# FRESCO# 视频转换2年前04660
什么是推理模型?推理模型的优缺点,为什么科技公司都在推出推理模型?随着 AI 技术的快速发展,各大科技公司纷纷推出具备“推理”能力的新一代模型。此前 DeepSeek 的 R1 模型也以推理能力作为其「先进模型」的标杆。那么,推理模型到底有何优势?为什么包括 Ope...科普# Anthropic# Claude 3.7 Sonnet# DeepSeek-R110个月前04650
可控图像到视频生成框架SG-I2V:用于在图像到视频的生成过程中实现对象和相机运动的控制图像到视频生成技术已经取得了显著的进步,能够生成高度逼真的视频。然而,调整生成视频中的特定元素,如物体运动或相机移动,通常需要繁琐的试错过程,例如使用不同的随机种子重新生成视频。最近的技术通过微调预训...新技术# SG-I2V# 视频生成1年前04650
新型视觉基础模型Lotus:使用扩散模型来生成高质量的密集预测结果香港科技大学(广州)、阿德莱德大学、诺亚方舟实验室和香港科技大学的研究人员推出新型视觉基础模型Lotus,它使用扩散模型来生成高质量的密集预测结果。简单来说,Lotus就像一个超级聪明的图像处理专家...新技术# Lotus# 视觉基础模型1年前04640
基于参考的线条艺术视频上色的视频扩散框架LVCD:用于根据参考图像和线稿序列为动画视频着色香港城市大学和腾讯的研究人员推出基于参考的线条艺术视频上色的视频扩散框架LVCD,用于根据参考图像和线稿序列为动画视频着色。这种方法能够生成长时间一致的、高质量的动画视频。LVCD在保持长时间一致性和...新技术# LVCD# 视频上色1年前04640
IFAdapter:提升基于文本生成图像的扩散模型在生成多个实例时的精确度和细节控制能力而设计腾讯PCG和新加坡国立大学的研究人员推出新型方法IFAdapter,它是为了提升基于文本生成图像(Text-to-Image,简称T2I)的扩散模型在生成多个实例时的精确度和细节控制能力而设计的。简单...新技术# IFAdapter1年前04640
TTT-Video:通过引入 Test-Time Training(TTT)层,成功让DiT 模型能够从文本故事板生成长达一分钟的视频英伟达联合斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究人员,通过引入 Test-Time Training(TTT)层,成功让预训练的 DiT 模型能够从文本故事...新技术# CogVideoX-5B# DiT 模型# TTT-Video8个月前04620
数据生成管道Gen4Gen:创建高质量的个性化图像和文本描述来自加州大学伯克利分校、牛津大学、哈佛大学、卡耐基梅隆大学、香港大学、加州大学戴维斯分校的研究人员推出数据生成管道Gen4Gen,它用于创建一个名为MyCanvas的数据集,旨在提高文本到图像扩散模型...新技术# Gen4Gen# 数据生成管道2年前04620
苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro,它用于提高单目深度估计的准确性和细节表现。单目深度估计是指仅使用一个摄像头拍摄的单张图片来预测场景中每个像素的深度信息。例如,你用手...新技术# Depth Pro# 苹果1年前04610
Dipal D1:专为二次元爱好者打造的智能虚拟伴侣,“她”能看你能说还会撒娇你是否曾幻想过,有一个能听你说话、陪你聊天、懂你情绪的虚拟伴侣?现在,这个幻想正在变成现实。 Dipal推出的 Dipal D1,不仅是全球首款搭载曲面OLED屏幕的3D AI角色舱,更是一款集多模态...硬件# Dipal D1# 智能虚拟伴侣6个月前04600
新型实时文本驱动的说话头像生成框架OmniTalker :在零样本场景下同时生成同步的语音和说话头像视频,同时保留语音风格和面部风格阿里通义实验室推出新型实时文本驱动的说话头像生成框架OmniTalker ,能够在零样本(zero-shot)场景下同时生成同步的语音和说话头像视频,同时保留语音风格和面部风格。OmniTalker ...新技术# OmniTalker# 通义实验室8个月前04600