百科,SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。不仅提供Stable Diffusion、ComfyUI、Fooocus、Flux等热门工具的详细教程和丰富资源，还为您带来行业最新进展与趋势解读。无论您是初学者还是资深创作者，都能在这里快速找到所需信息，开启AI创作之旅。 | 第10页

字节跳动推出视频生成模型训练新方法APT：通过在扩散预训练的基础上对真实数据进行对抗训练，以实现一步视频生成

扩散模型在图像和视频生成领域展示了卓越的能力，但其迭代性质导致了生成过程缓慢且计算成本高昂。尽管现有的蒸馏方法尝试通过一步生成来解决这一问题，但往往伴随着显著的生成质量下降。为了解决这些挑战，字节跳动...

1个月前

0710

字节跳动推出新型图像分词器TA-TiTok及掩码生成模型MaskGen

字节跳动和浦项科技大学的研究人员提出了一种名为TA-TiTok的新型图像分词器。这是一种基于Transformer架构的文本感知一维分词器，能够高效处理离散或连续的一维标记。基于TA-TiTok的成功...

新技术 # MaskGen # TA-TiTok # 字节跳动

1个月前

0750

图像匹配框架MINIMA：解决跨视图和跨模态的情况下，多模态感知中的图像匹配问题

华中科技大学和武汉大学的研究人员推出一个统一的图像匹配框架MINIMA，即模态不变图像匹配。这项研究旨在解决多模态感知中的图像匹配问题，特别是在跨视图和跨模态的情况下。例如，在自动驾驶中，需要将可见光...

新技术 # MINIMA # 图像匹配框架

1个月前

0720

新型网络架构PIIP：提高视觉感知和多模态理解任务中的计算效率和性能

上海交通大学、清华大学、上海人工智能实验室、香港中文大学和商汤科技的研究人员推出新型网络架构PIIP，旨在提高视觉感知和多模态理解任务中的计算效率和性能。PIIP通过将不同分辨率的图像与不同参数规模的...

新技术 # PIIP

1个月前

0730

视频生成框架RepVideo：通过重新思考跨层表示来提高文生视频模型的性能

南洋理工大学和上海人工智能实验室的研究人员推出视频生成框架RepVideo，旨在通过重新思考跨层表示来提高文本到视频（Text-to-Video, T2V）扩散模型的性能。该框架通过积累邻近层的特征来...

新技术 # RepVideo # 视频生成框架

1个月前

0680

新型视频去噪框架Ouroboros-Diffusion：提高无调优（tuning-free）长视频生成中的结构和内容（主体）一致性

罗切斯特大学和智象未来的研究人员推出新型视频去噪框架Ouroboros-Diffusion，旨在提高无调优（tuning-free）长视频生成中的结构和内容（主体）一致性。该框架通过引入新的潜在采样技...

新技术 # Ouroboros-Diffusion # 视频去噪

1个月前

0780

SynthLight：基于扩散模型，通过模拟环境光照条件对真实人像照片进行重新照明

在数字影像处理领域，耶鲁大学和Adobe研究中心联合推出了一项创新技术——SynthLight。这项技术基于扩散模型，通过模拟环境光照条件对真实人像照片进行重新照明，从而达到令人惊叹的视觉效果。该方法...

新技术 # SynthLight

1个月前

0740

AnyStory：用于文本到图像生成的统一单主体和多主体个性化框架，生成具有特定主体的高保真个性化图像

阿里巴巴通义实验室推出一个用于文本到图像生成的统一单主体和多主体个性化框架AnyStory，旨在生成具有特定主体的高保真个性化图像，无论是单个主体还是多个主体，都能在不牺牲主体保真度的情况下实现个性化...

新技术 # AnyStory

1个月前

0760

交互式图像编辑工具FramePainter：利用视频扩散先验来增强图像编辑的能力

哈尔滨工业大学和华为诺亚方舟实验室的研究人员推出交互式图像编辑工具FramePainter，它利用视频扩散先验（video diffusion priors）来增强图像编辑的能力。FramePaint...

新技术 # FramePainter # 交互式图像编辑

1个月前

0850

腾讯推出音乐生成框架XMusic：支持多种输入形式（图像、视频、文本、标签和哼唱）生成音乐

在 AI 生成内容的领域中，音乐创作一直未能跟上视觉和文本内容的步伐。如今，腾讯推出的 XMusic 框架有望改变这一现状，通过情感可控、高质量的音乐创作，为创意应用带来新的可能性。项目主页：htt...

新技术 # XMusic

1个月前

0730

新型视频超分辨率（VSR）框架STAR：通过整合文生视频模型，解决真实世界视频超分辨率中的空间细节和时间一致性问题

在处理真实世界视频超分辨率任务时，基于生成对抗网络（GAN）的方法常常面临过度平滑的问题，而图像扩散模型虽然能部分解决这一问题，但在保持时间一致性方面表现不佳。为了解决这些问题，来自南京大学、字节跳动...

新技术 # STAR # 视频超分辨率

1个月前

01070

通用视频人脸恢复的统一框架SVFR：用于解决视频中的人脸恢复问题

厦门大学多媒体可信感知与高效计算教育部重点实验室和腾讯优图实验室的研究人员推出人脸恢复统一框架SVFR，用于解决视频中的人脸恢复问题。人脸恢复（Face Restoration, FR）是图像和视频处...

新技术 # SVFR # 人脸恢复

1个月前

0790