多实例生成方法3DIS-FLUX:利用最新的FLUX模型进行渲染,以实现更高质量的图像生成和更强的控制能力 浙江大学和哈佛大学的研究人员推出多实例生成(Multi-Instance Generation)方法3DIS-FLUX,用于文本到图像生成。3DIS-FLUX是3DIS框架的扩展,利用最新的FLUX模... 新技术# 3DIS-FLUX# 多实例生成 1个月前0730
多模态大语言模型Omni-RGPT:在统一图像和视频的区域级理解 英伟达和延世大学的研究人员推出多模态大语言模型Omni-RGPT,旨在统一图像和视频的区域级理解。Omni-RGPT通过一种新颖的区域表示方法——Token Mark,实现了对图像和视频中特定区域的深... 新技术# Omni-RGPT# 多模态大语言模型 1个月前0810
字节跳动推出视频生成模型训练新方法APT:通过在扩散预训练的基础上对真实数据进行对抗训练,以实现一步视频生成 扩散模型在图像和视频生成领域展示了卓越的能力,但其迭代性质导致了生成过程缓慢且计算成本高昂。尽管现有的蒸馏方法尝试通过一步生成来解决这一问题,但往往伴随着显著的生成质量下降。为了解决这些挑战,字节跳动... 新技术# APT# Seaweed-APT模型# 字节跳动 1个月前0680
字节跳动推出新型图像分词器TA-TiTok及掩码生成模型MaskGen 字节跳动和浦项科技大学的研究人员提出了一种名为TA-TiTok的新型图像分词器。这是一种基于Transformer架构的文本感知一维分词器,能够高效处理离散或连续的一维标记。基于TA-TiTok的成功... 新技术# MaskGen# TA-TiTok# 字节跳动 1个月前0720
图像匹配框架MINIMA:解决跨视图和跨模态的情况下,多模态感知中的图像匹配问题 华中科技大学和武汉大学的研究人员推出一个统一的图像匹配框架MINIMA,即模态不变图像匹配。这项研究旨在解决多模态感知中的图像匹配问题,特别是在跨视图和跨模态的情况下。例如,在自动驾驶中,需要将可见光... 新技术# MINIMA# 图像匹配框架 1个月前0700
新型网络架构PIIP:提高视觉感知和多模态理解任务中的计算效率和性能 上海交通大学、清华大学、上海人工智能实验室、香港中文大学和商汤科技的研究人员推出新型网络架构PIIP,旨在提高视觉感知和多模态理解任务中的计算效率和性能。PIIP通过将不同分辨率的图像与不同参数规模的... 新技术# PIIP 1个月前0710
视频生成框架RepVideo:通过重新思考跨层表示来提高文生视频模型的性能 南洋理工大学和上海人工智能实验室的研究人员推出视频生成框架RepVideo,旨在通过重新思考跨层表示来提高文本到视频(Text-to-Video, T2V)扩散模型的性能。该框架通过积累邻近层的特征来... 新技术# RepVideo# 视频生成框架 1个月前0650
新型视频去噪框架Ouroboros-Diffusion:提高无调优(tuning-free)长视频生成中的结构和内容(主体)一致性 罗切斯特大学和智象未来的研究人员推出新型视频去噪框架Ouroboros-Diffusion,旨在提高无调优(tuning-free)长视频生成中的结构和内容(主体)一致性。该框架通过引入新的潜在采样技... 新技术# Ouroboros-Diffusion# 视频去噪 1个月前0740
SynthLight:基于扩散模型,通过模拟环境光照条件对真实人像照片进行重新照明 在数字影像处理领域,耶鲁大学和Adobe研究中心联合推出了一项创新技术——SynthLight。这项技术基于扩散模型,通过模拟环境光照条件对真实人像照片进行重新照明,从而达到令人惊叹的视觉效果。该方法... 新技术# SynthLight 1个月前0720
AnyStory:用于文本到图像生成的统一单主体和多主体个性化框架,生成具有特定主体的高保真个性化图像 阿里巴巴通义实验室推出一个用于文本到图像生成的统一单主体和多主体个性化框架AnyStory,旨在生成具有特定主体的高保真个性化图像,无论是单个主体还是多个主体,都能在不牺牲主体保真度的情况下实现个性化... 新技术# AnyStory 1个月前0740
交互式图像编辑工具FramePainter:利用视频扩散先验来增强图像编辑的能力 哈尔滨工业大学和华为诺亚方舟实验室的研究人员推出交互式图像编辑工具FramePainter,它利用视频扩散先验(video diffusion priors)来增强图像编辑的能力。FramePaint... 新技术# FramePainter# 交互式图像编辑 1个月前0830
腾讯推出音乐生成框架XMusic:支持多种输入形式(图像、视频、文本、标签和哼唱)生成音乐 在 AI 生成内容的领域中,音乐创作一直未能跟上视觉和文本内容的步伐。如今,腾讯推出的 XMusic 框架有望改变这一现状,通过情感可控、高质量的音乐创作,为创意应用带来新的可能性。 项目主页:htt... 新技术# XMusic 1个月前0640