Zyphra开源支持高保真语音克隆的实时文本转语音(TTS)模型 Zonos-v0.1 测试版 Zyphra 最近发布了 Zonos-v0.1 测试版,这是一款支持高保真语音克隆的实时文本转语音(TTS)模型。作为开源项目的一部分,Zonos-v0.1 包含两个强大的 TTS 模型:一个 16 ... 语音模型# TTS模型# Zonos-v0.1 2周前0320
通义实验室推出基于指令的图像生成和编辑框架ACE++:基于FLUX.1-dev模型,实现多种图像生成和编辑任务 阿里巴巴通义实验室推出基于指令的图像生成和编辑框架ACE++,这是之前介绍过的新型多模态生成模型ACE升级版,ACE++ 通过改进的长上下文条件单元(LCU++)和两阶段训练方案,能够高效地利用预训练... 图像模型# ACE# FLUX.1-dev# 图像生成 2周前0700
字节跳动推出基于修正流Transformer 架构的新型图像和视频生成模型家族Goku 香港大学和字节跳动的研究人员推出新型图像和视频生成模型家族Goku,它基于修正流Transformer 架构,实现了行业领先的图像和视频联合生成性能。Goku 的目标是通过高质量的视觉内容生成,推动媒... 视频模型# Goku# 字节跳动# 视频生成 2周前0570
新型3D感知视频扩散模型Diffusion as Shader:通过3D控制信号实现多样化且精确的视频生成控制 香港科技大学、浙江大学、香港大学、南洋理工大学、武汉大学和德克萨斯A&M大学的研究人员推出新型3D感知视频扩散模型Diffusion as Shader (DaS) ,旨在通过3D控制信号实现多样化且... 视频模型# Diffusion as Shader# 视频生成控制 2周前0290
Stability AI释出Stable Diffusion 3 Medium模型,8G显存显卡即可使用 Stability AI终于在6月12日释出了万众期待的Stable Diffusion 3模型,不过此次释出的仅是 20 亿个参数的Stable Diffusion 3 Medium 模型,该型号尺... 图像模型# SD3模型# Stability AI# Stable Diffusion 3 Medium 2周前04,3750
单目深度估算模型Depth Anything V2:通过分析单张图片来预测物体距离 来自香港大学和TikTok的研究人员推出单目深度估算模型Depth Anything的升级版Depth Anything V2,让计算机通过分析单张图片来预测物体距离的技术,这在自动驾驶、3D建模和虚... 图像模型# Depth Anything V2# 单目深度估算模型 2周前07760
多语言文本编码器Glyph-ByT5-v2:提高在图形设计图像中渲染多种语言文本的准确性和美观度 来自微软亚洲研究院、清华大学、北京大学和利物浦大学的研究人员推出新型多语言视觉文本渲染技术Glyph-ByT5-v2,这是之前介绍的Glyph-ByT5升级版,此技术的目标是提高在图形设计图像中渲染多... 大语言模型# Glyph-ByT5-v2# Glyph-SDXL-v2# 文本编码器 2周前06250
Fal.ai平台推出新DiT模型AuraFlow:支持文字,百分百开源 Stability AI因为Stable Diffusion 3 Medium模型的许可证问题备受诟病,虽然后来更改了许可证,但此模型在人物尤其是躺倒后人物的糟糕表现还是不受开源社区待见。不少人开始转... 图像模型# AuraFlow# DiT模型# Fal.ai 2周前04330
以Stable Cascade为基础!新型超高分辨率图像生成方法UltraPixel:生成从1K至6K多种分辨率的高品质图像 香港科技大学(广州)、 华为诺亚方舟实验室、马克斯普朗克信息研究所和香港科技大学的研究人员推出一种新型超高分辨率图像生成方法UltraPixel,此方法是以Stability AI的模型Stable... 图像模型# Stable Cascade# UltraPixel# 超高分辨率图像生成 2周前05140
StabilityAI推出全新视频生成模型Stable Video 4D(SV4D):可将单个视频转化为 8 个不同角度/视图的新视图视频 StabilityAI在今天推出一个新的视频生成模型Stable Video 4D(SV4D),只需 40 秒就可将单个视频转化为 8 个不同角度/视图的新视图视频(5 帧/个视角),整个 4D 优化... 视频模型# StabilityAI# Stable Video 4D# SV4D 2周前07650
日本团队推出浮世绘风格专用生成模型Evo-Ukiyoe和浮世绘上色模型Evo-Nishikie 日本AI团队Sakana AI发布了专门用于生成浮世绘风格的生成模型Evo-Ukiyoe和浮世绘上色模型Evo-Nishikie,此模型是是以转为日语打造的图像生成模型Evo-SDXL-JP为基础,通... 图像模型# Evo-Nishikie# Evo-Ukiyoe# 浮世绘 2周前03600
Fal.ai平台推出了新一代GAN 图像放大工具AuraSR的第二版AuraSR-v2 Fal.ai平台推出了新一代GAN 图像放大工具AuraSR的第二版,上个月它们推出了AuraSR 第一版后,得到了开源社区积极回应,让他们立刻着手开发新版。AuraSR 以 Adobe 的 Giga... 图像模型# AuraSR# AuraSR-v2# Fal.ai 2周前04780