模型 | 第70页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

基于蒸馏的多功能图像生成模型DMM：通过蒸馏模型合并技术实现多功能图像生成

在文本到图像（Text-to-Image, T2I）生成领域，开发者通常会基于强大的基础模型（如Stable Diffusion 1.5）进行微调，以适应特定风格或场景的需求。例如，某些模型专注于生成...

12个月前

02760

微软发布20亿参数1-bit模型BitNet b1.58，性能超越主流LLM且更适合边缘设备

本周，微软发布了全新的大语言模型家族——BitNet b1.58 LLM。这一系列模型采用了创新的1-bit架构，参数规模达到20亿（2B4T），是迄今为止最大的开源1-bit模型。研究团队表示，这种...

大语言模型 # BitNet b1.58 # 微软

12个月前

05150

对角蛇形扫描自回归图像生成框架DAR：用于生成高质量图像的新型自回归模型

传统的自回归图像生成方法（如VQGAN）通常按照光栅扫描（raster scan）顺序生成图像令牌。这种方式在行末换行时会导致相邻令牌之间的欧几里得距离过大，从而影响生成效果。例如，当生成一张256...

图像模型 # DAR # 自回归模型

12个月前

02760

谷歌推出Gemini 2.5 Flash：更强大的推理能力与灵活的成本控制

谷歌于今日通过Google AI Studio和Vertex AI的Gemini API，发布了Gemini 2.5 Flash的早期预览版。这一新版本在广受欢迎的2.0 Flash基础上进行了重大升...

大语言模型 # Gemini 2.5 Flash # 谷歌

12个月前

02970

阿里巴巴通义实验室推出Wan2.1-FLF2V-14B：140亿参数的首尾帧到视频生成大模型

阿里巴巴通义实验室近日开源了Wan2.1系列的首款大模型——Wan2.1-FLF2V-14B。这是一款专为首尾帧到视频生成设计的140亿参数大模型，旨在为数字艺术家提供前所未有的效率和创作灵活性。模...

视频模型 # Wan2.1-FLF2V-14B # 视频生成大模型 # 阿里巴巴

12个月前

04120

FLUX.1-dev-ControlNet-Union-Pro-2.0：Shakker Labs发布的新一代ControlNet，功能升级，性能优化！

Shakker Labs近期发布了FLUX.1-dev-ControlNet-Union-Pro-2.0，这是FLUX.1-dev模型的升级版统一ControlNet。该版本在功能和性能上都进行了显著...

Flux衍生 # controlnet # FLUX.1-dev-ControlNet-Union-Pro-2.0 # Shakker Labs

12个月前

01,4050

Lightricks 推出 LTX Video 0.9.6：更快、更稳定，助力创意视频生成

Lightricks 在 5 个月前推出了视频生成模型 LTX Video。今天，官方宣布 LTXV 0.9.6 版本正式发布，为视频生成领域带来了新的突破。此次更新推出了 2B 参数开源视频模型的两...

视频模型 # LTX Video # LTXV 0.9.6 # 视频生成模型

12个月前

04740

基于Flux模型的创新角色生成框架InstantCharacter：单张图像生成高质量角色图像

腾讯混元团队与InstantX团队近日联合推出了一种全新的角色定制方法——InstantCharacter。这一方法无需调优，仅通过单张图像即可实现高保真、文本可控且角色一致的图像生成，支持多种下游任...

图像模型 # FLUX模型 # InstantCharacter # InstantX

12个月前

06090

FramePack：用神经网络破解视频生成难题，能够将输入上下文压缩至固定长度，使生成工作量不受视频长度影响

视频生成技术一直是AI领域的热门研究方向之一。然而，现有的视频生成模型在处理长视频时常常面临两大挑战：一是“遗忘”问题，模型难以记住早期的视频内容，导致生成的视频缺乏连贯性；二是“漂移”问题，随着视频...

视频模型 # controlnet # FramePack # Lvmin Zhang

11个月前

04680

新型视频法线估计模型 NormalCrafter ：能够从任意长度的开放世界视频中生成具有时间一致性和细粒度细节的法线序列

香港理工大学、腾讯 PCG ARC 实验室、香港城市大学和华中科技大学的研究人员推出新型视频法线估计模型 NormalCrafter ，它能够从任意长度的开放世界视频中生成具有时间一致性和细粒度细节的...

视频模型 # NormalCrafter # 视频法线估计模型

11个月前

04490

OpenAI 推出o3 和 o4-mini：迄今最智能、最强大的模型，具备全面工具访问能力

今天，OpenAI发布 OpenAI o3 和 o4-mini，这是OpenAI o 系列模型的最新版本，经过训练能在回答前进行更长时间的思考。这些是OpenAI迄今发布的最智能模型，显著提升了 Ch...

大语言模型 # o3 # o4-mini # OpenAI

1年前

05890

开源版GPT‑4o？新型多模态生成模型 Liquid，用一个模型搞定视觉与语言任务

在OpenAI旗下GPT‑4o凭借原生生成及编辑图像功能，火爆网络后，大家都在期待有相对应的开源模型推出。而将视觉和语言任务高效整合一直是研究的热点。华中科技大学、字节跳动和香港大学的研究人员推出了新...

图像模型 # GPT‑4o # OpenAI # 多模态生成模型

1年前

02700

加载更多

模型

基于蒸馏的多功能图像生成模型DMM：通过蒸馏模型合并技术实现多功能图像生成

微软发布20亿参数1-bit模型BitNet b1.58，性能超越主流LLM且更适合边缘设备

对角蛇形扫描自回归图像生成框架DAR：用于生成高质量图像的新型自回归模型

谷歌推出Gemini 2.5 Flash：更强大的推理能力与灵活的成本控制

阿里巴巴通义实验室推出Wan2.1-FLF2V-14B：140亿参数的首尾帧到视频生成大模型

FLUX.1-dev-ControlNet-Union-Pro-2.0：Shakker Labs发布的新一代ControlNet，功能升级，性能优化！

Lightricks 推出 LTX Video 0.9.6：更快、更稳定，助力创意视频生成

基于Flux模型的创新角色生成框架InstantCharacter：单张图像生成高质量角色图像

FramePack：用神经网络破解视频生成难题，能够将输入上下文压缩至固定长度，使生成工作量不受视频长度影响

新型视频法线估计模型 NormalCrafter ：能够从任意长度的开放世界视频中生成具有时间一致性和细粒度细节的法线序列

OpenAI 推出o3 和 o4-mini：迄今最智能、最强大的模型，具备全面工具访问能力

开源版GPT‑4o？新型多模态生成模型 Liquid，用一个模型搞定视觉与语言任务

ITELLOU

S.H.I.T

MinerU

TapNow

Tripo

waoo

模型

网址

ITELLOU

S.H.I.T

MinerU

TapNow

Tripo

waoo