综合多模态系统InternLM-XComposer2.5-OmniLive (浦语·灵笔 2.5 OmniLive):实现实时视频和音频交互 创建能够像人类认知一样长时间与环境互动的AI系统一直是人工智能领域的长期研究目标。尽管多模态大语言模型(MLLMs)在开放世界理解方面取得了显著进展,但在连续和同时的流式感知、记忆和推理方面仍然面临巨... 多模态模型# InternLM-XComposer2.5-OmniLive# 浦语·灵笔 2.5 OmniLive 2周前01060
FLUX.1 Tools 系列模型FP8量化版本,适合小显存用户使用 黑森林实验室(Black Forest Labs)在上个月发布了 FLUX.1 Tools 系列开源模型,旨在为图像处理和生成任务提供强大的工具。该系列包括以下三个主要模型: FLUX.1 Fill:... 图像模型# FLUX.1 Canny# FLUX.1 Depth# FLUX.1 Fill 2周前01140
Leffa:通过参考图像生成人物图像,允许对人物的外观或姿势进行精确控制 可控人物图像生成的目标是根据参考图像生成高质量的人物图像,同时允许对人物的外观或姿势进行精确控制。尽管现有的方法在整体图像质量上取得了显著进展,但它们往往会在生成过程中扭曲参考图像中的细粒度纹理细节。... 图像模型# Leffa# 虚拟试穿 2周前01140
微信 AI 模式识别中心推出视觉语言模型POINTS1.5系列:提升对真实世界应用的处理能力 微信 AI 模式识别中心推出视觉语言模型POINTS1.5系列,旨在提升对真实世界应用的处理能力。POINTS1.5是POINTS1.0的增强版本,它通过引入几项关键创新,改进了模型在处理高分辨率图像... 多模态模型# POINTS1.5# 视觉语言模型 2周前01240
用于定制漫画生成的新框架DiffSensei:将多模态大语言模型和扩散模型结合起来,以实现对漫画角色形象和布局的精确控制 故事可视化,即将文本描述转化为视觉叙事的任务,近年来随着文本到图像生成模型的发展取得了显著进展。然而,现有的模型在处理多角色场景时,特别是在控制角色外观和互动方面,仍然存在局限性。具体来说,这些模型难... 图像模型# DiffSensei# 定制漫画 2周前01250
MMAudio:基于多模态联合训练的同步音频生成系统 近年来,多模态生成模型在图像、视频和文本等领域取得了显著进展,但将视觉和文本信息与音频生成结合的任务仍然具有挑战性。传统的音频生成方法通常依赖于单一模态(如仅基于文本或仅基于视频),难以实现高质量的音... 语音模型# MMAudio# 音频生成 2周前01160
LIFT:利用人类反馈进行文生视频模型对齐的新型微调方法 文本到视频(T2V)生成模型近年来取得了显著进展,能够生成高质量的合成视频。然而,这些模型在将合成视频与人类偏好(例如,准确反映文本描述)对齐方面仍然存在不足。复旦大学、上海人工智能科学院和阿德莱德大... 视频模型# LIFT# 微调# 文生视频模型 2周前01240
多模态大语言模型InternVL 2.5:处理和理解来自多种模态(如文本、图像和视频)的信息 InternVL 2.5 是由上海人工智能实验室、商汤科技研究院、清华大学、南京大学、复旦大学、香港中文大学和上海交通大学等多家机构联合推出的一款先进的多模态大语言模型(MLLM)。该模型基于此前发布... 多模态模型# InternVL 2.5# 多模态大语言模型 2周前01060
阿里巴巴语音实验室发布开源语音处理框架 ClearerVoice-Studio:支持语音增强、分离和目标说话人提取 在当今的音频环境中,清晰沟通面临诸多挑战。背景噪音、重叠对话以及音频和视频信号的混合等因素常常破坏了沟通的清晰度和理解力。这些问题不仅影响个人通话,还波及专业会议和内容制作等场景。尽管音频技术有所进步... 语音模型# ClearerVoice-Studio# 阿里巴巴 2周前01160
shou_xin:基于FLUX.1-dev 的铅笔素描Lora shou_xin是ComfyUI工作流大神Datou根据小红书上的画家手訫(shou xin)的铅笔速写作品训练的Flux Lora,不仅可以出铅笔素描图还可以出彩铅图,已提供模型和工作流。 模型:h... Flux衍生# shou_xin# 铅笔素描Lora 2周前01200
开源视觉语言模型Moondream:将强大的图像理解能力与极小的资源占用完美结合 Moondream 是一款高效的开源视觉语言模型(VLM),它将强大的图像理解能力与极小的资源占用完美结合。这款模型设计初衷是为各种设备和平台提供多功能且易于访问的人工智能解决方案。 官网:https... 多模态模型# Moondream# 视觉语言模型 2周前01200
单步扩散方法NitroFusion:通过动态对抗框架实现高质量的图像生成 萨里大学和NetMind.AI的研究人员提出了NitroFusion,这是一种根本不同的单步扩散方法,旨在通过动态对抗框架实现高质量的图像生成。尽管单步方法在速度上具有显著优势,但它们通常在生成质量上... 图像模型# NitroFusion# 单步扩散 2周前01210