阿里通义实验室推出一个零样本、通用且交互式的视觉生成框架ChatDiT:允许用户通过自由形式的自然语言指令与系统交互,创建交织文本-图像文章、多页画册、编辑图像
近年来,预训练扩散Transformer(DiTs)在上下文生成能力方面展现了巨大的潜力,能...
Adobe推出以主题驱动的零样本视频定制新方法SUGAR
Adobe介绍了一个名为SUGAR(Subject-Driven Video Customization in a Zero-Shot M...
通过实现空间可扩展和全景动态场景合成的创新框架DynamicScaler:用于生成高质量、可扩展的全景动态场景视频
随着对沉浸式 AR/VR 应用和空间智能需求的增加,生成高质量的场景级和 360...
字节推出CausalFusion:基于解码器的变换器,旨在统一自回归(AR)和扩散模型的生成范式
字节跳动介绍了一个名为CausalFusion的模型,它是一个基于解码器的变换器(decoder...