模型 | 第17页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型世界模型

排序

发布更新浏览点赞

新型视频生成模型Pyramidal Flow：提高视频生成的效率，同时保持生成视频的高质量

北京大学、快手科技和北京邮电大学的研究人员推出新型视频生成模型Pyramidal Flow，这个模型的目的是提高视频生成的效率，同时保持生成视频的高质量。可以想象一下，你想制作一个视频，里面有一只小猫...

12个月前

04810

Sparc3D：用于高分辨率三维形状建模的稀疏表示和构建框架

南洋理工大学、Math Magic和伦敦帝国理工学院的研究人员推出一个用于高分辨率三维形状建模的稀疏表示和构建框架 Sparc3D，它通过稀疏可变形的 Marching Cubes（Sparcubes...

3D模型 # Sparc3D

8个月前

04800

OpenAI 推出o3 和 o4-mini：迄今最智能、最强大的模型，具备全面工具访问能力

今天，OpenAI发布 OpenAI o3 和 o4-mini，这是OpenAI o 系列模型的最新版本，经过训练能在回答前进行更长时间的思考。这些是OpenAI迄今发布的最智能模型，显著提升了 Ch...

大语言模型 # o3 # o4-mini # OpenAI

10个月前

04800

Golden Haggadah：基于FLUX.1-dev的金色哈加达风格LoRA

Golden Haggadah是一款基于FLUX.1-dev，以 14 世纪加西班牙泰罗尼亚金色哈加达风格为基础训练的LoRA模型，适用于生成圣经故事图片。模型：https://civitai.co...

Flux衍生 # FLUX.1-dev # Golden Haggadah # Lora

12个月前

04800

MemOS：为大语言模型设计的长期记忆操作系统

MemOS 是由记忆张量科技联合上海交通大学、同济大学、浙江大学、北京大学等多所高校及研究机构联合开源的一项突破性研究成果——专为大语言模型（LLMs）设计的长期记忆操作系统。项目主页：https...

大语言模型 # MemOS # 大语言模型

7个月前

04790

MiniMax推出视觉三重统一强化学习（RL）系统 V-Triune ：使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务

MiniMax推出视觉三重统一强化学习（RL）系统 V-Triune ，使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务。该系统通过整合三个互补组件——样本级数据格式化（Sample-Le...

多模态模型 # MiniMax # V-Triune # 视觉语言模型

8个月前

04790

TTS模型FishSpeech推出v1.5 版本：具备多语言支持、零样本即时语音克隆、低延迟等特性

FishSpeech v1.5 是一款功能强大的文本到语音（TTS）模型，具备多语言支持、零样本即时语音克隆、低延迟等特性。该模型拥有仅5亿参数，却能够在多种语言之间无缝切换，并提供高质量的语音合成效...

语音模型 # FishSpeech v1.5 # TTS模型

12个月前

04790

Collov Labs推出非自回归掩码图像建模的文本到图像合成模型Monetico

Collov Labs 最近在8块H100 GPU上训练了一周时间，推出了新的非自回归掩码图像建模的文本到图像合成模型——Monetico。这款模型能够生成高分辨率图像，并且被设计为在消费级显卡上高效...

图像模型 # Monetico # 文生图模型

12个月前

04780

高容量真实世界图像恢复模型DreamClear：结合隐私安全的数据处理流程（GenIR）和DiT技术，以实现对低质量图像的高质量恢复

现实世界中的图像恢复（IR）面临着显著的挑战，主要是缺乏高容量模型和全面的数据集。为了解决这些问题，中国科学院自动化研究所、中国科学院大学人工智能学院、字节跳动公司和中国科学技术大学的研究人员提出了一...

图像模型 # DreamClear # 图像恢复模型

12个月前

04770

Simple Vector Flux：基于FLUX.1-dev的矢量动画LoRA 模型

Simple Vector Flux是一款基于FLUX.1-dev的LoRA 模型，它在一组精选的约50张经典矢量风格的合成图像上训练的。触发关键词：v3ct0r、vector 推荐强度：0.6 ...

Flux衍生 # FLUX.1-dev # LoRA 模型 # Simple Vector Flux

12个月前

04770

增强版多模态大语言模型ILLUME+ ：通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力

近年来，多模态大语言模型（MLLMs）在图像理解、生成和编辑任务中取得了显著进展。然而，现有的统一模型在同时处理这三种任务时面临挑战。例如，早期的模型（如 Chameleon 和 EMU3）使用 VQ...

多模态模型 # ILLUME # 图像生成 # 多模态大语言模型

10个月前

04760

Prompt-to-Leaderboard (P2L)：为特定使用场景量身定制的大语言模型排行榜

LMArena 推出了 Prompt-to-Leaderboard（P2L），这是一种创新方法，旨在通过自然语言提示生成针对特定使用场景的实时大语言模型（LLM）排行榜。P2L 的核心思想是训练一个大...

大语言模型 # P2L # 大语言模型

11个月前

04740

加载更多

模型

新型视频生成模型Pyramidal Flow：提高视频生成的效率，同时保持生成视频的高质量

Sparc3D：用于高分辨率三维形状建模的稀疏表示和构建框架

OpenAI 推出o3 和 o4-mini：迄今最智能、最强大的模型，具备全面工具访问能力

Golden Haggadah：基于FLUX.1-dev的金色哈加达风格LoRA

MemOS：为大语言模型设计的长期记忆操作系统

MiniMax推出视觉三重统一强化学习（RL）系统 V-Triune ：使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务

TTS模型FishSpeech推出v1.5 版本：具备多语言支持、零样本即时语音克隆、低延迟等特性

Collov Labs推出非自回归掩码图像建模的文本到图像合成模型Monetico

高容量真实世界图像恢复模型DreamClear：结合隐私安全的数据处理流程（GenIR）和DiT技术，以实现对低质量图像的高质量恢复

Simple Vector Flux：基于FLUX.1-dev的矢量动画LoRA 模型

增强版多模态大语言模型ILLUME+ ：通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力

Prompt-to-Leaderboard (P2L)：为特定使用场景量身定制的大语言模型排行榜

新QoderWork

Clawdbot/Moltbot

Situation Monitor

Skills.sh

中国科技云数据胶囊

Fogsight (雾象)

模型

网址

新QoderWork

Clawdbot/Moltbot

Situation Monitor

Skills.sh

中国科技云数据胶囊

Fogsight (雾象)