Leffa:通过参考图像生成人物图像,允许对人物的外观或姿势进行精确控制可控人物图像生成的目标是根据参考图像生成高质量的人物图像,同时允许对人物的外观或姿势进行精确控制。尽管现有的方法在整体图像质量上取得了显著进展,但它们往往会在生成过程中扭曲参考图像中的细粒度纹理细节...图像模型# Leffa# 虚拟试穿11个月前03180
微信 AI 模式识别中心推出视觉语言模型POINTS1.5系列:提升对真实世界应用的处理能力微信 AI 模式识别中心推出视觉语言模型POINTS1.5系列,旨在提升对真实世界应用的处理能力。POINTS1.5是POINTS1.0的增强版本,它通过引入几项关键创新,改进了模型在处理高分辨率图像...多模态模型# POINTS1.5# 视觉语言模型11个月前03570
用于定制漫画生成的新框架DiffSensei:将多模态大语言模型和扩散模型结合起来,以实现对漫画角色形象和布局的精确控制故事可视化,即将文本描述转化为视觉叙事的任务,近年来随着文本到图像生成模型的发展取得了显著进展。然而,现有的模型在处理多角色场景时,特别是在控制角色外观和互动方面,仍然存在局限性。具体来说,这些模型难...图像模型# DiffSensei# 定制漫画11个月前03210
MMAudio:基于多模态联合训练的同步音频生成系统近年来,多模态生成模型在图像、视频和文本等领域取得了显著进展,但将视觉和文本信息与音频生成结合的任务仍然具有挑战性。传统的音频生成方法通常依赖于单一模态(如仅基于文本或仅基于视频),难以实现高质量的音...语音模型# MMAudio# 音频生成11个月前03020
LIFT:利用人类反馈进行文生视频模型对齐的新型微调方法文本到视频(T2V)生成模型近年来取得了显著进展,能够生成高质量的合成视频。然而,这些模型在将合成视频与人类偏好(例如,准确反映文本描述)对齐方面仍然存在不足。复旦大学、上海人工智能科学院和阿德莱德大...视频模型# LIFT# 微调# 文生视频模型11个月前03550
多模态大语言模型InternVL 2.5:处理和理解来自多种模态(如文本、图像和视频)的信息InternVL 2.5 是由上海人工智能实验室、商汤科技研究院、清华大学、南京大学、复旦大学、香港中文大学和上海交通大学等多家机构联合推出的一款先进的多模态大语言模型(MLLM)。该模型基于此前发布...多模态模型# InternVL 2.5# 多模态大语言模型11个月前02930
阿里巴巴语音实验室发布开源语音处理框架 ClearerVoice-Studio:支持语音增强、分离和目标说话人提取在当今的音频环境中,清晰沟通面临诸多挑战。背景噪音、重叠对话以及音频和视频信号的混合等因素常常破坏了沟通的清晰度和理解力。这些问题不仅影响个人通话,还波及专业会议和内容制作等场景。尽管音频技术有所进步...语音模型# ClearerVoice-Studio# 阿里巴巴11个月前03200
shou_xin:基于FLUX.1-dev 的铅笔素描Lorashou_xin是ComfyUI工作流大神Datou根据小红书上的画家手訫(shou xin)的铅笔速写作品训练的Flux Lora,不仅可以出铅笔素描图还可以出彩铅图,已提供模型和工作流。 模型:h...Flux衍生# shou_xin# 铅笔素描Lora11个月前02980
开源视觉语言模型Moondream:将强大的图像理解能力与极小的资源占用完美结合Moondream 是一款高效的开源视觉语言模型(VLM),它将强大的图像理解能力与极小的资源占用完美结合。这款模型设计初衷是为各种设备和平台提供多功能且易于访问的人工智能解决方案。 官网:https...多模态模型# Moondream# 视觉语言模型11个月前03310
单步扩散方法NitroFusion:通过动态对抗框架实现高质量的图像生成萨里大学和NetMind.AI的研究人员提出了NitroFusion,这是一种根本不同的单步扩散方法,旨在通过动态对抗框架实现高质量的图像生成。尽管单步方法在速度上具有显著优势,但它们通常在生成质量上...图像模型# NitroFusion# 单步扩散11个月前03410
字节跳动推出新型统一图像标记器TokenFlow:弥合多模态理解和生成之间的长期存在的差距字节跳动的研究团队提出了TokenFlow,这是一种新颖的统一图像标记器,旨在弥合多模态理解和生成之间的长期存在的差距。先前的方法尝试使用单一的重建导向向量量化(VQ)编码器来统一这两项任务,但这种做...图像模型# TokenFlow# 统一图像标记器11个月前03140
新型生成模型OmniFlow:用于处理任何到任何(any-to-any)的多模态生成任务,例如文本到图像、文本到音频以及音频到图像的合成加州大学洛杉矶分校、松下AI研究院和Salesforce AI研究院的研究人员共同提出了OmniFlow,这是一种新颖的生成模型,专为处理“任何到任何”(any-to-any)生成任务设计,如文本到图...图像模型# OmniFlow# 多模态生成11个月前03100