模型 | 第54页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

月之暗面推出高效开源视觉-语言模型Kimi-VL

随着AI技术的快速发展，视觉-语言模型（VLM）在多模态任务中的应用越来越广泛。然而，如何在保持高性能的同时降低计算成本，一直是研究者面临的挑战。近日，国内知名AI公司“月之暗面”推出了一款高效的开...

多模态模型 # Kimi-VL # 月之暗面

8个月前

03560

基于 Mochi 微调的开源视频模型Pusa：低成本、高性能的开源视频生成模型

Pusa 是基于 Mochi 微调的开源视频模型，不仅开源了整个微调过程，还以极低的训练成本（仅 100 美元）实现了多种视频生成任务的无缝支持。 GitHub：https://github.com...

视频模型 # Pusa # 视频生成模型

8个月前

01920

基于像素空间流的图像生成模型PixelFlow：根据给定的文本描述生成高质量、语义一致的图像

香港大学和Adobe的研究人员推出基于像素空间流的图像生成模型PixelFlow，它直接在像素空间中进行操作，与传统的基于潜在空间（latent space）的模型不同。PixelFlow通过高效的级...

图像模型 # PixelFlow # 图像生成模型

8个月前

01930

智象未来开源全新的170 亿参数图像生成基础模型HiDream-I1

北京智象未来科技开源了一款全新的图像生成基础模型HiDream-I1，其拥有 170 亿个参数，能够在几秒内实现顶尖的图像生成效果。这一模型提供了三种变体：Full、Dev 和 Fast，以满足不同用...

图像模型 # HiDream-I1 # 图像生成模型 # 智象未来

8个月前

05220

基于DeepSeek-R1构建的开源高效编码模型DeepCoder-14B

由Together AI和Agentica联合推出了一款编码模型DeepCoder-14B，正以其卓越的性能和完全开源的特点，引发AI社区的广泛关注。这款基于DeepSeek-R1构建的模型，在多个编...

大语言模型 # DeepCoder-14B # DeepSeek-R1 # 编码模型

8个月前

01990

字节跳动推出基于Flux的通用框架UNO：支持虚拟试穿、风格化生成、产品设计等功能

字节跳动近日推出了UNO，这是一个强大的通用框架，能够从单一主体到多主体进行定制化演进。UNO不仅展示了出色的泛化能力，还能将多样化的任务统一在一个模型之下，为图像生成领域带来了新的突破。项目主页...

图像模型 # FLUX # UNO # 字节跳动

9个月前

06220

英伟达发布开源大语言模型Llama-3.1 Nemotron Ultra-253B-v1：以半数参数超越DeepSeek R1

英伟达今天发布了一款全新的开源大语言模型—Llama-3.1 Nemotron Ultra-253B-v1，这款拥有2530亿参数的模型在多个基准测试中表现出色，甚至超越了竞争对手DeepSeek R...

大语言模型 # Llama-3.1 Nemotron Ultra # Llama-3.1 Nemotron Ultra-253B-v1 # 英伟达

9个月前

02550

Deep Cogito推出Cogito v1系列混合AI推理模型，基于Llama/Qwen训练

Deep Cogito在今天发布了其最新成果——Cogito v1系列模型，这是一组参数规模从30亿到700亿不等的开源大语言模型（LLMs）。这些模型不仅在性能上超越了同等规模的最佳开源模型，还引入...

大语言模型 # Cogito v1 # Deep Cogito # 混合AI推理模型

9个月前

03350

拥有20亿参数的多模态大语言模型Open-Qwen2VL

在多模态大语言模型（MLLMs）的研究与应用中，视觉与文本模态的融合正在不断拓展其边界，从图像描述到视觉问答，再到复杂文档的解读，这些模型展现出了强大的能力。然而，这一领域的进一步发展面临着诸多挑战...

多模态模型 # Open-Qwen2VL # 多模态大语言模型

9个月前

01860

香港大学与华为合作发布扩散大语言模型 Dream 7B

香港大学与华为诺亚方舟实验室携手，正式发布了迄今为止最强大的开放扩散（Diffusion）大语言模型——Dream 7B。这一模型不仅在性能上大幅超越现有的扩散语言模型，还在通用能力、数学能力和编码能...

大语言模型 # Dream 7B # 华为诺亚方舟实验室 # 扩散大语言模型

9个月前

04940

新型图像编码器FlexTok：能够将二维图像重新采样为长度可变的一维离散标记（token）序列

苹果和瑞士洛桑联邦理工学院的研究人员推出新型图像编码器FlexTok，它能够将二维图像重新采样为长度可变的一维离散标记（token）序列。FlexTok 的核心思想是通过灵活的标记长度来适应图像的复杂...

图像模型 # FlexTok # 图像编码器

9个月前

03470

新型框架WriteHERE：通过异构递归规划实现自适应的长文本写作

长文本写作（如小说、技术报告等）需要在信息检索、推理和创作之间进行灵活的整合与交互。现有的方法通常依赖于预定义的工作流程和僵化的思维模式，先生成大纲再进行写作，这限制了写作过程中的适应性。项目主页...

大语言模型 # WriteHERE # 长文本写作

9个月前

03520

加载更多

模型

月之暗面推出高效开源视觉-语言模型Kimi-VL

基于 Mochi 微调的开源视频模型Pusa：低成本、高性能的开源视频生成模型

基于像素空间流的图像生成模型PixelFlow：根据给定的文本描述生成高质量、语义一致的图像

智象未来开源全新的170 亿参数图像生成基础模型HiDream-I1

基于DeepSeek-R1构建的开源高效编码模型DeepCoder-14B

字节跳动推出基于Flux的通用框架UNO：支持虚拟试穿、风格化生成、产品设计等功能

英伟达发布开源大语言模型Llama-3.1 Nemotron Ultra-253B-v1：以半数参数超越DeepSeek R1

Deep Cogito推出Cogito v1系列混合AI推理模型，基于Llama/Qwen训练

拥有20亿参数的多模态大语言模型Open-Qwen2VL

香港大学与华为合作发布扩散大语言模型 Dream 7B

新型图像编码器FlexTok：能够将二维图像重新采样为长度可变的一维离散标记（token）序列

新型框架WriteHERE：通过异构递归规划实现自适应的长文本写作

人生 K 线

NOFX

Amazon Bedrock

On-Device AI

Hedra Studio

AI 网站构建器

模型

网址

人生 K 线

NOFX

Amazon Bedrock

On-Device AI

Hedra Studio

AI 网站构建器