新型多模态DiT模型AV-DiT:生成既有视觉画面又有声音的高质量视频来自多伦多大学、德克萨斯大学达拉斯分校和Adobe研究中心的研究人员推出新型多模态扩散变换器AV-DiT(Audio-Visual Diffusion Transformer),它专门设计用于联合生成...新技术# AV-DiT# DiT模型1年前06540
新型图像生成模型家族LlamaGen:将大语言模型(Llama)应用到视觉图像生成领域香港大学及字节跳动的研究人员推出新型图像生成模型家族LlamaGen,将大语言模型(Llama)中原用于文本生成的“下一个令牌预测”范式应用到了视觉图像生成领域。LlamaGen是对传统自回归模型在图...新技术# LlamaGen# 图像生成# 大语言模型2年前06540
新型框架Lightplane:用于处理3D神经场的高度可扩展的组件密歇根大学和Meta的研究人员推出新型框架Lightplane,它包含两个高度可扩展的组件:Lightplane Renderer和Lightplane Splatter。这两个组件专门用于处理3D神...新技术# 3D场景模型# Lightplane# Lightplane Renderer2年前06540
什么是模型上下文协议(MCP)?与传统API相比,它如何简化AI集成Model Context Protocol (MCP) 是一种新的开放协议,旨在标准化应用程序如何为大语言模型 (LLMs) 提供上下文。它由 Anthropic 于 2024 年 11 月推出,现...科普# AI集成# API# MCP9个月前06530
DragAnything:视频生成中任意对象的运动控制来自快手、浙江大学和新加坡国立大学的研究团队推出DragAnything,它是一种用于视频生成和控制的方法,它利用实体表示法来实现对视频生成中任意对象的运动控制。 项目主页 GitHub 论文 例如...新技术# DragAnything# 视频生成# 运动控制2年前06520
交互式帧插值工具Framer:根据用户的创造力生成两个图像之间平滑过渡的帧帧插值是生成两个图像之间平滑过渡帧的技术,广泛应用于视频处理、动画制作和内容创作等领域。传统的帧插值方法通常依赖于固定的算法,难以实现对局部运动的精细控制。浙江大学和蚂蚁集团的研究人员提出了Frame...新技术# Framer# 帧插值12个月前06510
AI视频生成新模型CONSISTI2V:通过增强视觉一致性来改善视频生成的质量来自滑铁卢大学、Vector Institute、Harmony.AI、多模式艺术投影研究社区的研究人员提出了一种基于扩散的图像到视频生成新方法CONSISTI2V,它旨在通过增强视觉一致性来改善视频...新技术# AI视频生成# CONSISTI2V2年前06500
新型图像生成技术StrokeNUWA:利用大语言模型生成矢量图形StrokeNUWA是一种新型图像生成技术,用于仅通过大语言模型(LLM)生成矢量图形,无需依赖专门的视觉模块。 论文 该方法的关键创新在于利用矢量图形固有的视觉语义,将矢量图形编码为"笔画"标记,这...新技术# LLM# StrokeNUWA# 大语言模型2年前06490
图像编辑框架FlexEdit:用于灵活且可控地编辑图像中的物体来自VinAI Research和越南科技大学的研究人员推出图像编辑框架FlexEdit,它是一个基于扩散模型(Stable Diffusion)的图像编辑框架,专门设计用于灵活且可控地编辑图像中的物...新技术# FlexEdit# 图像编辑框架2年前06480
基于优化框架的跨模态视频-音频生成方法Seeing and Hearing:能够同时生成视频和音频内容香港科技大学和腾讯 PCG ARC 实验室推出基于优化框架的跨模态视频-音频生成方法Seeing and Hearing,它能够同时生成视频和音频内容。方法的主要创新点在于,通过预训练的多模态模型(如...新技术# Seeing and Hearing# 优化框架# 跨模态视频-音频生成方法2年前06470
多模态大语言模型Groma:具备精细化和定位化的视觉感知能力来自香港大学和字节跳动的研究人员推出多模态大语言模型Groma,它具备精细化和定位化的视觉感知能力。Groma不仅能够理解整个图像的内容,还能处理区域级别的任务,比如区域字幕(region capti...新技术# Groma# 多模态大语言模型2年前06460
EdgeFusion:能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像来自韩国Nota AI和三星电子的研究人员推出EdgeFusion,它能够在资源受限的移动设备上快速生成与文本描述相匹配的高质量图像。这项技术的核心是优化了文生图模型Stable Diffusion...新技术# EdgeFusion# LCM# 文生图模型2年前06460