字节跳动推出新型统一图像标记器TokenFlow:弥合多模态理解和生成之间的长期存在的差距 字节跳动的研究团队提出了TokenFlow,这是一种新颖的统一图像标记器,旨在弥合多模态理解和生成之间的长期存在的差距。先前的方法尝试使用单一的重建导向向量量化(VQ)编码器来统一这两项任务,但这种做... 图像模型# TokenFlow# 统一图像标记器 2周前01040
新型生成模型OmniFlow:用于处理任何到任何(any-to-any)的多模态生成任务,例如文本到图像、文本到音频以及音频到图像的合成 加州大学洛杉矶分校、松下AI研究院和Salesforce AI研究院的研究人员共同提出了OmniFlow,这是一种新颖的生成模型,专为处理“任何到任何”(any-to-any)生成任务设计,如文本到图... 图像模型# OmniFlow# 多模态生成 2周前01090
微软推出全新多模态大语言模型家族Florence-VL 马里兰大学和微软研究院的研究团队共同提出了Florence-VL,这是一个全新的多模态大语言模型(MLLMs)家族。Florence-VL的视觉表示由生成式视觉基础模型Florence-2生成,与传统... 多模态模型# Florence-VL# 多模态大语言模型# 微软 2周前01170
新颖3D生成模型TRELLIS:能够创建多功能且高质量的3D资产 清华大学、中国科学技术大学和微软研究院的研究团队联合提出了一种名为TRELLIS的新颖3D生成模型,该模型能够创建多功能且高质量的3D资产。TRELLIS的核心优势在于其统一的结构化潜在表示(Stru... 3D模型# 3D生成模型# TRELLIS 2周前01240
谷歌推出开源视觉语言模型PaliGemma2:增加了强大的视觉能力,更容易微调 今年5月,谷歌推出了 PaliGemma,这是 Gemma 家族中的第一个视觉语言模型,旨在使一流的视觉AI更加普及。现在,谷歌自豪地推出 PaliGemma 2,这是一个可调视觉语言模型的最新进化版... 多模态模型# PaliGemma2# 视觉语言模型# 谷歌 2周前01120
CogVideoXXX1.5-5B-I2V LoRA NSFW :基于 CogVideoX1.5-5B 的LoRA模型,专门针对NSFW内容进行了训练 CogVideoXXX1.5-5B-I2V LoRA NSFW 是一个基于 CogVideoX1.5-5B 的LoRA模型,专门针对NSFW内容进行了训练。该模型在处理NSFW内容时表现出色,但也具备... 视频模型# CogVideoX1.5-5B# LoRA模型 2周前0950
TTS模型FishSpeech推出v1.5 版本:具备多语言支持、零样本即时语音克隆、低延迟等特性 FishSpeech v1.5 是一款功能强大的文本到语音(TTS)模型,具备多语言支持、零样本即时语音克隆、低延迟等特性。该模型拥有仅5亿参数,却能够在多种语言之间无缝切换,并提供高质量的语音合成效... 语音模型# FishSpeech v1.5# TTS模型 2周前01060
AWPortraitCN:专门针对中国人长相特征及审美进行了优化的FLUX LoRA模型 AWPortraitCN 是由 DynamicWang 基于FLUX.1-dev模型开发的一款LoRA模型,专门针对中国人长相特征及审美进行了优化。该模型使用了包含室内、室外人像、时尚、棚拍写真等多类... Flux衍生# AWPortraitCN# LoRA模型 2周前04370
多功能即插即用适配器MV-Adapter:将SDXL模型及其衍生模型适配为多视图生成器。 现有的多视图图像生成方法通常对预训练的文生图模型进行侵入性修改,并需要全面微调,导致高计算成本和图像质量下降。为了解决这些问题,北京航空航天大学、VAST 和上海交通大学的研究人员提出了 MV-Ada... 图像模型# MV-Adapter# SDXL模型# 多视图 2周前01090
SWITTI:用于文本到图像合成的新型规模感知变换器模型 Yandex Research、HSE 大学、MIPT 和 Skoltech 的研究人员提出了 Switti,这是一个专门设计用于文本到图像(T2I)生成的尺度变换器。Switti 从现有的下一尺度预... 图像模型# SWITTI# 文生图模型 2周前0990
开源视频生成项目Open-Sora Plan:基于多种用户输入生成高分辨率、长时长的理想视频 由北大-兔展AIGC联合实验室共同发起的Open-Sora Plan,目标是复现OpenAI的Sora模型。这是一个开源的大型视频生成模型项目,旨在基于多种用户输入生成高分辨率、长时长的理想视频。该项... 视频模型# Open-Sora Plan 2周前01070
腾讯发布开源视频生成模型—混元文生视频模型HunyuanVideo 腾讯在今天正式开源了其最新的视频生成模型—混元文生视频模型HunyuanVideo。这款模型不仅在视频生成能力上与业界领先的闭源模型相匹敌,甚至在某些方面表现更为出色。作为一款综合性的框架,Hunyu... 视频模型# HunyuanVideo# 混元文生视频模型# 腾讯 2周前01310