基于蒸馏的多功能图像生成模型DMM:通过蒸馏模型合并技术实现多功能图像生成在文本到图像(Text-to-Image, T2I)生成领域,开发者通常会基于强大的基础模型(如Stable Diffusion 1.5)进行微调,以适应特定风格或场景的需求。例如,某些模型专注于生成...图像模型# DMM# 图像生成模型# 蒸馏模型12个月前02760
微软发布20亿参数1-bit模型BitNet b1.58,性能超越主流LLM且更适合边缘设备本周,微软发布了全新的大语言模型家族——BitNet b1.58 LLM。这一系列模型采用了创新的1-bit架构,参数规模达到20亿(2B4T),是迄今为止最大的开源1-bit模型。研究团队表示,这种...大语言模型# BitNet b1.58# 微软12个月前05150
对角蛇形扫描自回归图像生成框架DAR:用于生成高质量图像的新型自回归模型传统的自回归图像生成方法(如VQGAN)通常按照光栅扫描(raster scan)顺序生成图像令牌。这种方式在行末换行时会导致相邻令牌之间的欧几里得距离过大,从而影响生成效果。例如,当生成一张256...图像模型# DAR# 自回归模型12个月前02760
谷歌推出Gemini 2.5 Flash:更强大的推理能力与灵活的成本控制谷歌于今日通过Google AI Studio和Vertex AI的Gemini API,发布了Gemini 2.5 Flash的早期预览版。这一新版本在广受欢迎的2.0 Flash基础上进行了重大升...大语言模型# Gemini 2.5 Flash# 谷歌12个月前02970
阿里巴巴通义实验室推出Wan2.1-FLF2V-14B:140亿参数的首尾帧到视频生成大模型阿里巴巴通义实验室近日开源了Wan2.1系列的首款大模型——Wan2.1-FLF2V-14B。这是一款专为首尾帧到视频生成设计的140亿参数大模型,旨在为数字艺术家提供前所未有的效率和创作灵活性。 模...视频模型# Wan2.1-FLF2V-14B# 视频生成大模型# 阿里巴巴12个月前04120
FLUX.1-dev-ControlNet-Union-Pro-2.0:Shakker Labs发布的新一代ControlNet,功能升级,性能优化!Shakker Labs近期发布了FLUX.1-dev-ControlNet-Union-Pro-2.0,这是FLUX.1-dev模型的升级版统一ControlNet。该版本在功能和性能上都进行了显著...Flux衍生# controlnet# FLUX.1-dev-ControlNet-Union-Pro-2.0# Shakker Labs12个月前01,4050
Lightricks 推出 LTX Video 0.9.6:更快、更稳定,助力创意视频生成Lightricks 在 5 个月前推出了视频生成模型 LTX Video。今天,官方宣布 LTXV 0.9.6 版本正式发布,为视频生成领域带来了新的突破。此次更新推出了 2B 参数开源视频模型的两...视频模型# LTX Video# LTXV 0.9.6# 视频生成模型12个月前04740
基于Flux模型的创新角色生成框架InstantCharacter:单张图像生成高质量角色图像腾讯混元团队与InstantX团队近日联合推出了一种全新的角色定制方法——InstantCharacter。这一方法无需调优,仅通过单张图像即可实现高保真、文本可控且角色一致的图像生成,支持多种下游任...图像模型# FLUX模型# InstantCharacter# InstantX12个月前06090
FramePack:用神经网络破解视频生成难题,能够将输入上下文压缩至固定长度,使生成工作量不受视频长度影响视频生成技术一直是AI领域的热门研究方向之一。然而,现有的视频生成模型在处理长视频时常常面临两大挑战:一是“遗忘”问题,模型难以记住早期的视频内容,导致生成的视频缺乏连贯性;二是“漂移”问题,随着视频...视频模型# controlnet# FramePack# Lvmin Zhang11个月前04680
新型视频法线估计模型 NormalCrafter :能够从任意长度的开放世界视频中生成具有时间一致性和细粒度细节的法线序列香港理工大学、腾讯 PCG ARC 实验室、香港城市大学和华中科技大学的研究人员推出新型视频法线估计模型 NormalCrafter ,它能够从任意长度的开放世界视频中生成具有时间一致性和细粒度细节的...视频模型# NormalCrafter# 视频法线估计模型11个月前04490
OpenAI 推出o3 和 o4-mini:迄今最智能、最强大的模型,具备全面工具访问能力今天,OpenAI发布 OpenAI o3 和 o4-mini,这是OpenAI o 系列模型的最新版本,经过训练能在回答前进行更长时间的思考。这些是OpenAI迄今发布的最智能模型,显著提升了 Ch...大语言模型# o3# o4-mini# OpenAI1年前05890
开源版GPT‑4o?新型多模态生成模型 Liquid,用一个模型搞定视觉与语言任务在OpenAI旗下GPT‑4o凭借原生生成及编辑图像功能,火爆网络后,大家都在期待有相对应的开源模型推出。而将视觉和语言任务高效整合一直是研究的热点。华中科技大学、字节跳动和香港大学的研究人员推出了新...图像模型# GPT‑4o# OpenAI# 多模态生成模型1年前02700