端到端唇音同步框架LatentSync:可以分析新的音频信号,并生成与音频同步的口型字节跳动与北京交通大学的研究团队共同提出了一种名为LatentSync的新方法,旨在解决唇音同步的问题。这一框架利用了Stable Diffusion的强大能力,通过一个端到端的流程直接建模复杂的音视...语音模型# LatentSync# 唇音同步11个月前03860
文本到音频生成模型TANGOFLUX:从文本描述中快速、忠实地生成高质量的音频内容随着人工智能技术的发展,文本到音频(TTA)生成模型正在逐渐改变我们与数字内容互动的方式。然而,创建高质量且自然的音频输出仍然是一个复杂的技术挑战,尤其是在对齐模型以产生符合人类期望的音频方面。新加坡...语音模型# TANGOFLUX# 文本到音频生成模型5个月前03450
用文生图的新型规模感知变换器SWITTI:基于现有的下一代规模预测自回归(AR)模型Yandex Research、俄罗斯国立研究型大学高等经济学院、莫斯科物理技术学院和Skoltech科大的研究人员推出新型规模感知变换器SWITTI,它用于文本到图像的合成。SWITTI基于现有的下...图像模型# AR模型# SWITTI11个月前03680
Snow Ball:雪花球主题的Flux Lora,允许在雪花球内展示各种场景Snow Globe - Snow Ball是一款雪花球主题的Flux Lora,允许在雪球内展示各种场景,非常适合与其他类型Lora搭配使用。 地址:https://tensor.art/model...Flux衍生# Flux LoRa# Snow Ball# 雪花球11个月前03470
Seiwert Industrial:抽象工业现代主义风格Flux LoraSeiwert Industrial是一款受弗朗茨·威廉·塞维特(Franz Wilhelm Seiwert,1894–1933)启发的抽象工业现代主义风格Flux Lora,弗朗茨·威廉·塞维特是集...Flux衍生# Seiwert Industrial# 工业现代主义11个月前03110
Gesture Draw:草图风格Flux Lora,非常适合捕捉动态和能量,是绘制粗略、手势草图的完美选择Gesture Draw是一个草图风格Flux Lora,非常适合捕捉动态和能量,是绘制粗略、手势草图的完美选择。无论是快速练习还是动态姿势,这个LoRA都能保持草图的生动感和生命力。跳过过度修饰的外...Flux衍生# Flux LoRa# Gesture Draw# 草图11个月前03030
RisographPrint:Risograph印刷风格Flux Lora,适合用于小册子、海报以及具有纹理和手工艺感的醒目平面设计RisographPrint是一款Risograph印刷风格Flux Lora,以其鲜艳的分层色彩、半透明的大豆油墨以及轻微的瑕疵(如错位和半色调渐变)而闻名。这种风格将复古美学与现代多功能性相结合...Flux衍生# Flux LoRa# RisographPrint11个月前03290
Ligne Claire:法国漫画家尚·吉罗开创的“Ligne Claire”艺术风格Flux LoraLigne Claire是一款旨在生成类似于由法国漫画家Jean Giraud(尚·吉罗)开创的“Ligne Claire”艺术风格图像的Flux Lora。 模型地址:https://civitai...Flux衍生# Flux LoRa# Ligne Claire# 尚·吉罗11个月前03250
Everly Heights Character Sheets:专为故事创作者、动画师和游戏开发者设计的Flux LoraEverly Heights Character Sheets是一款专为故事创作者、动画师和游戏开发者设计的Flux Lora,这款LoRA模型以精准和风格创建专业级角色设定表。无论你是为动画、漫画还...Flux衍生# Everly Heights Character Sheets11个月前03210
CELEBRIT:重现MTV昔日热门节目《名人死亡赛》中黏土动画风格的Flux LoraCELEBRIT是一款旨在重现MTV昔日热门节目《名人死亡赛》中黏土动画风格的Flux Lora,开发者推出了两款模型(经典版和多功能版),无需触发关键词即可使用。 模型地址:https://civi...Flux衍生# Flux LoRa# 名人死亡赛# 黏土动画11个月前02670
CogAgent-9B-20241220:基于视觉语言模型的开源 GUI agent 模型图形用户界面(GUI)是用户与软件交互的核心。然而,构建能够有效导航GUI的智能代理一直是一个持续的挑战。传统方法在适应性方面存在不足,尤其是在处理复杂布局或GUI频繁变化时,这些问题限制了自动化GU...多模态模型# CogAgent-9B-2024122011个月前02720
腾讯发布一种在 MM-DiT 架构下无需额外训练的多提示长视频生成方法DiTCtrl随着视频生成模型的发展,基于DiT架构如 Sora 和 MM-DiT 在单提示视频生成任务中取得了显著进展。然而,这些模型在处理多个顺序提示时面临诸多挑战,难以生成连贯且自然过渡的场景。具体来说: 严...视频模型# DiTCtrl11个月前03160