图森未来发布图生视频大模型“Ruyi”,能够在消费级显卡上运行 图森未来今日正式发布了其首款“图生视频”大模型——Ruyi,目前Ruyi-Mini-7B版本已经正式释出。这款模型专为生成高质量的影视级视频而设计,能够在消费级显卡(如 RTX 3090 或 RTX ... 插件视频模型# Ruyi# 图森未来# 图生视频大模型 2周前01470
无问芯穹推出全球首个端侧全模态理解开源模型Megrez-3B-Omni 12月16日,无问芯穹宣布正式开源其“端模型+端软件+端IP”端上智能一体化解决方案中的小模型——Megrez-3B-Omni,以及纯语言版本模型 Megrez-3B-Instruct。这一举措标志着... 多模态模型# Megrez-3B-Omni# 无问芯穹 2周前01170
Meta推出多模态模型Apollo:擅长处理长视频,能够在长达一小时的视频中保持高效的理解能力 尽管视频感知能力已经迅速集成到大型多模态模型(LMMs)中,但其驱动视频理解的基本机制仍未被充分理解。这导致了许多设计决策缺乏适当的理由或分析,尤其是在训练和评估这些模型时,高昂的计算成本和有限的开放... 多模态模型# Apollo# Meta# 多模态模型 2周前01010
UltraReal Fine-Tune:基于 FLUX.1-dev 模型的现实主义微调版本 UltraReal Fine-Tune 是基于 FLUX.1-dev 模型的一个微调版本,旨在通过训练者自己的 UltraReal LoRA 并扩展更大的数据集,找到业余美学与专业高质量视觉效果之间的... Flux衍生# UltraReal Fine-Tune# 现实主义 2周前01100
Dramatic Portrait:用于人物肖像增强的Flux Lora Dramatic Portrait是一个用于人物肖像增强的Flux Lora,生成的人物更加真实,没有Flux模型生成人物屁股下巴的问题,此 Lora更加适合欧美人物生成。此Lora模型无需触发词即可... Flux衍生# Dramatic Portrait# 人物肖像增强 2周前01260
Witcher Medallion:基于FLUX.1-dev 的猎魔人学院徽章Lora Witcher Medallion是一个用于游戏《巫师》系列猎魔人学院徽章的Flux Lora,通过这个猎魔人徽章 LoRA,你可以制作任何生物(无论是真实存在的还是想象中的)的徽章,来代表你自己的猎... Flux衍生# Lora# 徽章# 猎魔人学院 2周前01440
Flux Condensation:基于FLUX.1-dev 的冷凝水画笔Lora Flux Condensation是X上的AI绘画高手fofrAI训练的一个Flux Lora,主要用于生成由冷凝形成的文字/图画。 模型地址:https://huggingface.co/fofr/... Flux衍生# Flux Condensation# 冷凝水 2周前01190
深度求索推出开源视觉模型DeepSeek-VL2 :支持动态分辨率、处理科研图表、解析各种梗图等 DeepSeek-VL2 是由深度求索(DeepSeek-AI)推出的一系列先进混合专家(MoE, Mixture of Experts)视觉语言模型,旨在显著提升其前代产品 DeepSeek-VL ... 多模态模型# DeepSeek-VL 2# 深度求索 2周前01060
Sber AI 推出新一代多模态生成模型Kandinsky 4.0:包含3个视频生成模型(T2V、T2V Flash、I2V)和一个视频生成音频模型(V2A) 去年,在 AI Journey 2023 大会上,Sber AI 推出了两款引人注目的模型:用于图像生成的 Kandinsky 3.0 和俄罗斯首个文本到视频生成模型 Kandinsky Video。... 多模态模型# Kandinsky 4.0 2周前01590
人体图像动画生成DisPose:从参考图像和驱动视频中生成视频,同时保持人物外观的一致性,并允许对动画进行精确控制 可控的人体图像动画旨在使用驱动视频从参考图像生成视频。为了确保运动对齐,最近的工作尝试引入额外的密集条件(例如,深度图),但这些方法在参考角色的体型与驱动视频中的体型显著不同时,可能会损害生成视频的质... 视频模型# DisPose# 人体图像动画生成 2周前01170
多模态大语言模型Lyra:专注于增强多模态能力,特别是高级长语音理解、声音理解、跨模态效率和无缝语音交互 随着多模态大语言模型(MLLMs)的发展,扩展到单一领域之外的能力对于满足更通用和高效AI的需求至关重要。然而,之前的全模态模型在语音处理方面存在不足,忽视了其与视觉、文本等其他模态的深度整合。为了解... 多模态模型# Lyra# 多模态大语言模型 2周前01280
新型插件式适应方法EasyRef:允许扩散模型根据多个参考图像和文本提示进行条件生成 在个性化生成任务中,扩散模型(Diffusion Models)已经取得了显著的成就。传统的无需调优的方法通常通过平均多个参考图像的图像嵌入作为注入条件来编码,但这种与图像无关的操作无法在图像之间进行... 图像模型# EasyRef# 扩散模型 2周前01250