Rhymes AI开源视频生成模型Allegro:从简单的文本提示生成高质量的 6 秒视频 Rhymes AI在推出多模态原生模型Aria后,又在昨天开源了视频生成模型Allegro,Allegro 使用户能够从简单的文本提示生成高质量的 6 秒视频,帧率为 15 帧每秒,分辨率为 720P... 视频模型# Allegro# Rhymes AI# 视频生成模型 2周前02470
Stability AI推出其最新的图像生成模型系列Stable Diffusion 3.5(SD3.5):更具可定制性和多功能性,同时在性能上也有所提升 在经历了一系列由技术故障和许可变更引发的争议后,Stability AI宣布了其最新的图像生成模型系列—Stable Diffusion 3.5(SD3.5),新的Stable Diffusion 3... 图像模型# SD3.5# Stability AI# Stable Diffusion 3.5 2周前02500
混合自回归变换器HART:高效生成高分辨率图像 现有的自回归(AR)视觉生成模型在生成高分辨率图像时面临两大挑战:离散分词器的图像重建质量较差,以及生成1024px图像的训练成本过高。为了解决这些问题,麻省理工学院、英伟达和清华大学的研究人员提出了... 图像模型# HART# 混合自回归变换器 2周前02360
肖像图像动画Hallo2:用于制作高分辨率、长时间的人像动画 基于潜在扩散的生成模型在肖像图像动画方面取得了显著进展,特别是在短时视频合成方面。例如,Hallo 模型已经展示了令人印象深刻的结果。然而,这些模型在生成长时间视频时面临外观漂移和时间伪影等问题。为了... 视频模型# Hallo2# 肖像图像 2周前02160
MagicTailor框架:让用户对生成的图像中的特定视觉元素进行精确控制 近年来,文本到图像(T2I)扩散模型取得了显著进展,能够从简单的文本提示中生成高质量的图像。然而,这些模型在精确控制特定视觉概念生成方面仍然面临挑战。现有的方法可以通过参考图像学习复制给定的概念,但缺... 图像模型# MagicTailor# 图像定制 2周前02570
文字处理能力出众!Playground推出最新文生图模型Playground v3 Playground 推出了Playground v3(PGv3),这是Playground最新的文本到图像模型,在多个测试基准上达到了最先进的(SoTA)性能,在图形设计能力上表现出色,并引入了新的... 图像模型# Playground v3# 文生图模型 2周前02090
非自回归 MIM 文生图合成模型Meissonic:生成高质量、高分辨率的图像 随着大语言模型(LLMs)在自然语言处理任务中的显著进步,研究人员开始探索类似的文本到图像合成方法。与此同时,扩散模型已经成为视觉生成的主流方法。然而,由于语言和视觉任务之间存在显著的操作差异,开发统... 图像模型# Meissonic# 文生图合成模型 2周前02200
新型图像抠图方法SEMat:能够在复杂的自然场景中实现更精确的前景对象抠图 近年来,交互式分割模型(如 SAM)在图像分割任务中取得了显著进展。然而,这些模型在应用于交互式抠图任务时面临挑战,尤其是在处理复杂和遮挡场景时。现有的方法通常在合成数据上训练模型,但这些模型难以泛化... 图像模型# SEMat# 图像抠图 2周前02300
深度求索推出新颖自回归框架 Janus: 具有图像生成功能的 13 亿多模态模型 多模态AI模型是能够理解和生成视觉内容的强大工具。然而,现有方法通常使用单一视觉编码器来处理这两项任务,这导致了由于理解和生成在本质上不同的需求而表现不佳。理解需要高层次的语义抽象,而生成则关注局部细... 多模态模型# Janus# 多模态模型 2周前06290
新型文生图框架SANA:能够高效地生成高达4096×4096分辨率的高清晰度图像 英伟达、麻省理工学院和清华大学的研究人员推出新型文本到图像生成框架SANA,它能够高效地生成高达4096×4096分辨率的高清晰度图像。SANA的核心优势在于它不仅生成的图像质量高,而且与文本的匹配度... 图像模型# SANA# 文生图框架 2周前04210
Jasper研究团队推出适用于FLUX.1-dev 的新型 Upscaler、深度和法线贴图 ControlNet模型 在FLUX.1-dev取代SDXL和SD3成为开源社区最爱的文生图开源模型, 各种周边模型也是层出不穷,今天给大家分享近期推出的适用于 FLUX.1-dev 的新型 Upscaler、深度和法线贴图 ... Flux衍生# ControlNet模型# FLUX.1-dev 2周前02330
阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B:能够同时处理和理解文本和视觉信息 Ovis1.6-Gemma2-9B是阿里国际推出的一款多模态大语言模型,Ovis是一种新颖的多模态大语言模型(MLLM)架构,旨在结构化地对齐视觉和文本嵌入。Ovis1.6-Gemma2-9B基于O... 多模态模型# Ovis1.6-Gemma2-9B# 多模态大语言模型 2周前03320