Meta推出多模态模型Apollo:擅长处理长视频,能够在长达一小时的视频中保持高效的理解能力尽管视频感知能力已经迅速集成到大型多模态模型(LMMs)中,但其驱动视频理解的基本机制仍未被充分理解。这导致了许多设计决策缺乏适当的理由或分析,尤其是在训练和评估这些模型时,高昂的计算成本和有限的开放...多模态模型# Apollo# Meta# 多模态模型11个月前03030
UltraReal Fine-Tune:基于 FLUX.1-dev 模型的现实主义微调版本UltraReal Fine-Tune 是基于 FLUX.1-dev 模型的一个微调版本,旨在通过训练者自己的 UltraReal LoRA 并扩展更大的数据集,找到业余美学与专业高质量视觉效果之间的...Flux衍生# UltraReal Fine-Tune# 现实主义11个月前03200
Dramatic Portrait:用于人物肖像增强的Flux LoraDramatic Portrait是一个用于人物肖像增强的Flux Lora,生成的人物更加真实,没有Flux模型生成人物屁股下巴的问题,此 Lora更加适合欧美人物生成。此Lora模型无需触发词即可...Flux衍生# Dramatic Portrait# 人物肖像增强11个月前03100
Witcher Medallion:基于FLUX.1-dev 的猎魔人学院徽章LoraWitcher Medallion是一个用于游戏《巫师》系列猎魔人学院徽章的Flux Lora,通过这个猎魔人徽章 LoRA,你可以制作任何生物(无论是真实存在的还是想象中的)的徽章,来代表你自己的猎...Flux衍生# Lora# 徽章# 猎魔人学院11个月前04240
Flux Condensation:基于FLUX.1-dev 的冷凝水画笔LoraFlux Condensation是X上的AI绘画高手fofrAI训练的一个Flux Lora,主要用于生成由冷凝形成的文字/图画。 模型地址:https://huggingface.co/fofr...Flux衍生# Flux Condensation# 冷凝水11个月前02820
深度求索推出开源视觉模型DeepSeek-VL2 :支持动态分辨率、处理科研图表、解析各种梗图等DeepSeek-VL2 是由深度求索(DeepSeek-AI)推出的一系列先进混合专家(MoE, Mixture of Experts)视觉语言模型,旨在显著提升其前代产品 DeepSeek-VL ...多模态模型# DeepSeek-VL 2# 深度求索11个月前02770
Sber AI 推出新一代多模态生成模型Kandinsky 4.0:包含3个视频生成模型(T2V、T2V Flash、I2V)和一个视频生成音频模型(V2A)去年,在 AI Journey 2023 大会上,Sber AI 推出了两款引人注目的模型:用于图像生成的 Kandinsky 3.0 和俄罗斯首个文本到视频生成模型 Kandinsky Video...多模态模型# Kandinsky 4.011个月前03600
人体图像动画生成DisPose:从参考图像和驱动视频中生成视频,同时保持人物外观的一致性,并允许对动画进行精确控制可控的人体图像动画旨在使用驱动视频从参考图像生成视频。为了确保运动对齐,最近的工作尝试引入额外的密集条件(例如,深度图),但这些方法在参考角色的体型与驱动视频中的体型显著不同时,可能会损害生成视频的质...视频模型# DisPose# 人体图像动画生成11个月前03260
多模态大语言模型Lyra:专注于增强多模态能力,特别是高级长语音理解、声音理解、跨模态效率和无缝语音交互随着多模态大语言模型(MLLMs)的发展,扩展到单一领域之外的能力对于满足更通用和高效AI的需求至关重要。然而,之前的全模态模型在语音处理方面存在不足,忽视了其与视觉、文本等其他模态的深度整合。为了解...多模态模型# Lyra# 多模态大语言模型11个月前02970
新型插件式适应方法EasyRef:允许扩散模型根据多个参考图像和文本提示进行条件生成在个性化生成任务中,扩散模型(Diffusion Models)已经取得了显著的成就。传统的无需调优的方法通常通过平均多个参考图像的图像嵌入作为注入条件来编码,但这种与图像无关的操作无法在图像之间进行...图像模型# EasyRef# 扩散模型11个月前03050
综合多模态系统InternLM-XComposer2.5-OmniLive (浦语·灵笔 2.5 OmniLive):实现实时视频和音频交互创建能够像人类认知一样长时间与环境互动的AI系统一直是人工智能领域的长期研究目标。尽管多模态大语言模型(MLLMs)在开放世界理解方面取得了显著进展,但在连续和同时的流式感知、记忆和推理方面仍然面临巨...多模态模型# InternLM-XComposer2.5-OmniLive# 浦语·灵笔 2.5 OmniLive11个月前02550
FLUX.1 Tools 系列模型FP8量化版本,适合小显存用户使用黑森林实验室(Black Forest Labs)在上个月发布了 FLUX.1 Tools 系列开源模型,旨在为图像处理和生成任务提供强大的工具。该系列包括以下三个主要模型: FLUX.1 Fill...图像模型# FLUX.1 Canny# FLUX.1 Depth# FLUX.1 Fill11个月前03300