Rhymes AI开源图生视频模型Allegro-TI2V:根据用户提供的提示和图像生成视频Rhymes AI之前开源了视频生成模型Allegro,近期它们又推出了Allegro-TI2V。作为原始Allegro模型的迭代,Allegro-TI2V提供了前所未有的能力,将文本描述和图像转化为...视频模型# Allegro-TI2V# Rhymes AI11个月前02970
多模态大语言模型ChatRex:提升对人类姿态的感知和理解能力IDEA的研究人员推出多模态大语言模型ChatRex,它旨在提升对人类姿态的感知和理解能力。ChatRex通过结合视觉和语言模型,能够执行多种与人体姿态相关任务,包括姿态理解、生成和编辑。这个模型特别...多模态模型# ChatRex# 多模态大语言模型11个月前02730
虚拟脱衣TryOffDiff:使用SD模型进行高保真服装重建的虚拟试穿比勒费尔德大学 CITEC 机器学习小组提出了一项新颖的任务——虚拟脱衣(Virtual Try-Off, VTOFF),旨在从穿着衣服的单张照片中生成标准化的服装图像。与传统的虚拟试穿(Virtua...图像模型# TryOffDiff# 虚拟脱衣# 虚拟试穿11个月前03510
自动T2I生成系统ChatGen:以自由聊天的形式简单描述需求,从而轻松获得高质量的图像尽管文本到图像(T2I)生成模型在近年来取得了显著进展,用户在实际应用中仍然面临着诸多挑战。制作合适的提示、选择适当的模型和配置特定参数等繁琐步骤的复杂性和不确定性,使得用户不得不通过反复试验来获得满...图像模型# ChatGen11个月前03170
半身人体动画生成框架 EchoMimicV2:利用参考图像、音频剪辑和一系列手部姿势来生成高质量的动画视频随着计算机图形学和人工智能的发展,生成高质量的人类动画变得越来越重要。特别是,当涉及到创建生动、自然的动画时,音频、姿势或运动图等条件的引入大大提升了动画的真实性和表现力。然而,这些增强的方法也带来了...视频模型# EchoMimicV2# 动画生成11个月前04720
用于 GUI 自动化的视觉代理模型ShowUI:结合了视觉、语言和行动能力,提高人机交互的效率和生产力新加坡国立大学和微软的研究人员推出用于 GUI(图形用户界面) 自动化的视觉代理模型ShowUI ,它是一个结合了视觉、语言和行动能力的大模型,旨在提高人机交互的效率和生产力。ShowUI通过理解和执...多模态模型# ShowUI# 视觉代理模型11个月前02580
Hugging Face发布一个用于设备上推理的2B参数小型多模态模型SmolVLM近年来,随着机器学习技术的飞速发展,视觉-语言模型(VLM)的需求不断增加。这些模型能够处理图像和文本的组合任务,如图像描述、问答和故事生成等。然而,大多数现有的VLM需要大量的计算资源和内存,这限制...多模态模型# Hugging Face# SmolVLM# 多模态模型11个月前02910
Stability AI发布适用于Stable Diffusion 3.5 Large的官方ControlNets模型:Blur、Canny和Depth在Black Forest Labs发布了官方FLUX.1 Tools系列开源模型后,Stability AI也不甘落后,于今天发布了三款官方ControlNets模型:Blur、Canny和Dept...图像模型# ControlNets模型# SD3.5# Stability AI11个月前03430
aiOla发布了集成命名实体识别(NER)和自动语音识别(ASR)的新型模型WhisperNER语音识别技术在过去几年取得了显著进展,AI的进步大大提高了其可访问性和准确性。然而,该技术仍面临一些挑战,特别是在理解和转录人名、地点和特定术语等口语实体方面。这些挑战不仅在于准确地将语音转换为文本...语音模型# aiOla# WhisperNER# 自动语音识别11个月前03390
多功能大规模扩散模型OneDiffusion:能够无缝支持双向图像合成和理解,跨越多种不同的任务AI2、加州大学欧文分校和华盛顿大学的研究人员介绍了一种名为OneDiffusion的多功能、大规模扩散模型。OneDiffusion能够无缝支持在多样化任务中进行双向图像合成和理解,涵盖从文本、深度...图像模型# OneDiffusion# 扩散模型11个月前03260
跨模态图像生成模型Qwen2vl-Flux:将Qwen2VL的视觉语言理解能力与FLUX框架相结合,实现了更精确和上下文感知的图像生成Qwen2vl-Flux 是一种先进的跨模态图像生成模型,它将Qwen2VL的视觉语言理解能力与FLUX框架相结合,实现了更精确和上下文感知的图像生成。该模型在文本提示和视觉参考的基础上生成高质量图像...图像模型# Qwen2vl-Flux# 视觉语言模型11个月前03290
适用于FLUX模型的新型框架OminiControl:通过整合图像条件,使得DiT模型能够处理各种图像生成任务新加坡国立大学的研究团队提出了一种名为OminiControl的新型框架,它旨在为预训练的DiT模型(FLUX模型)提供最小化和通用的控制。OminiControl通过整合图像条件,使得DiT模型能够...Flux衍生# FLUX模型# OminiControl# 图像生成11个月前04090