模型 | 第41页 | SD百科导航

百科工具模型 ComfyUI AI合集 web UI 提示词

大语言模型多模态模型图像模型语音模型 3D模型 Flux衍生视频模型

排序

发布更新浏览点赞

昆仑万维推出 SkyReels-Audio：多模态驱动、无限长度的高质量会说话肖像视频生成框架

昆仑万维旗下 SkyReels 团队发布了全新音视频生成模型——SkyReals-Audio，一个用于合成高保真、时间一致的“会说话”肖像视频的统一框架。项目主页：https://skyworka...

语音模型 # SkyReels-Audio # 昆仑万维

7个月前

02220

小红书 Hi Lab 发布 1420 亿参数 MoE 大模型 dots.llm1：推理仅激活 140 亿参数，性能媲美 Qwen2.5-72B

小红书 Hi Lab 团队近日正式开源了其自研大规模 MoE 文本大模型 dots.llm1，该模型总参数量高达 1420 亿（142B），但在每次推理时仅激活 140 亿（14B）参数，实现了高效能...

大语言模型 # dots.llm1 # 小红书

7个月前

02780

面壁智能发布 MiniCPM 4.0：端侧大模型效率再升级，极限提速 220 倍！

6 日晚，面壁智能正式发布了新一代高效端侧大语言模型 MiniCPM 4.0。该系列模型以极致轻量化和高效推理为核心目标，结合自研 CPM.cu 推理框架和稀疏注意力机制，在端侧设备上实现了惊人的性...

大语言模型 # MiniCPM 4.0 # 面壁智能

7个月前

02800

微软提出 GUI-Actor：基于视觉语言模型的无坐标 GUI 定位新范式

在构建基于视觉语言模型（VLM）的 GUI 代理系统中，一个关键挑战是如何准确理解屏幕上的视觉内容并定位应执行操作的区域。传统方法通常将此问题建模为“文本到坐标的生成”任务，即通过语言描述预测具体像素...

多模态模型 # GUI-Actor # 微软

7个月前

02980

EleutherAI 发布首个大规模许可训练数据集 The Common Pile v0.1

近日，开源人工智能研究组织 EleutherAI 正式发布了名为 The Common Pile v0.1 的全新训练数据集。该数据集据称是目前用于训练 AI 模型的最大合法授权+公共领域文本集合之一...

大语言模型 # EleutherAI # The Common Pile v0.1 # 数据集

7个月前

02640

Vui：轻量级、可本地运行的开源对话语音模型

Vui 是一组轻量级、可本地运行的开源对话语音模型，支持设备端部署，适用于对话生成、语音克隆及非语音声音合成等任务。 GitHub：https://github.com/fluxions-ai/vui...

语音模型 # Vui # 对话语音模型

7个月前

03380

MARBLE：基于 CLIP 空间的图像材质编辑新方法

在计算机视觉与图形学领域，图像中对象材质的编辑是一项具有挑战性的任务。传统方法往往依赖复杂的建模与渲染流程，而近年来，借助预训练扩散模型与语义嵌入空间（如CLIP）的技术逐渐成为研究热点。项目主页...

图像模型 # MARBLE # 图像材质编辑

7个月前

02540

字节跳动 Seed 团队正式发布 SeedEdit 3.0：支持 4K 图像编辑，编辑可用率显著提升

今日，字节跳动 Seed 团队正式发布了新一代图像编辑模型 SeedEdit 3.0。该模型基于文生图模型 Seedream 3.0，融合多样化的训练数据与奖励机制，在图像主体与背景一致性、指令理解能...

图像模型 # SeedEdit 3.0 # 字节跳动

7个月前

01890

阿里正式发布 Qwen3 Embedding和Reranker 系列模型：专为文本表征与检索排序设计

今天凌晨，阿里巴巴正式开源 Qwen3 Embedding 系列模型，作为 Qwen 模型家族的最新成员，该系列专注于文本语义表征、信息检索与排序任务，在多语言理解、跨语言检索和代码相关性建模等方面展...

大语言模型 # Qwen3 Embedding # Qwen3 Reranker # 阿里

7个月前

01450

Fish Audio 发布 OpenAudio S1-mini：支持 14 种语言、50+ 情感语气的开源 TTS 模型

文本转语音（TTS）领域迎来一位重量级开源选手 —— OpenAudio S1-mini。这是由 Fish Audio 团队推出的 S1 模型的轻量化版本，参数规模为 5亿（0.5B），基于超过 ...

语音模型 # Fish Audio # OpenAudio S1-mini # TTS 模型

7个月前

06240

英伟达推出面向文档理解的小而强视觉-语言模型 Llama Nemotron Nano VL

英伟达正式发布了 Llama Nemotron Nano VL —— 一款专为高效处理复杂文档设计的轻量级视觉-语言模型（VLM）。该模型基于 Llama 3.1 架构构建，在保持高性能的同时兼顾推理...

多模态模型 # Llama Nemotron Nano VL # 英伟达

7个月前

02170

Hugging Face 推出轻量级机器人AI模型SmolVLA：可在MacBook运行

随着AI与机器人技术的融合不断深入，构建个人机器人项目正变得前所未有的容易。近日，知名AI平台 Hugging Face 正式发布了其最新研发的机器人AI模型——SmolVLA，这一模型不仅小巧高效...

多模态模型 # Hugging Face # SmolVLA

7个月前

03190

加载更多

模型

昆仑万维推出 SkyReels-Audio：多模态驱动、无限长度的高质量会说话肖像视频生成框架

小红书 Hi Lab 发布 1420 亿参数 MoE 大模型 dots.llm1：推理仅激活 140 亿参数，性能媲美 Qwen2.5-72B

面壁智能发布 MiniCPM 4.0：端侧大模型效率再升级，极限提速 220 倍！

微软提出 GUI-Actor：基于视觉语言模型的无坐标 GUI 定位新范式

EleutherAI 发布首个大规模许可训练数据集 The Common Pile v0.1

Vui：轻量级、可本地运行的开源对话语音模型

MARBLE：基于 CLIP 空间的图像材质编辑新方法

字节跳动 Seed 团队正式发布 SeedEdit 3.0：支持 4K 图像编辑，编辑可用率显著提升

阿里正式发布 Qwen3 Embedding和Reranker 系列模型：专为文本表征与检索排序设计

Fish Audio 发布 OpenAudio S1-mini：支持 14 种语言、50+ 情感语气的开源 TTS 模型

英伟达推出面向文档理解的小而强视觉-语言模型 Llama Nemotron Nano VL

Hugging Face 推出轻量级机器人AI模型SmolVLA：可在MacBook运行

人生 K 线

Fogsight (雾象)

Higgsfield AI

BabelDOC

TTSMaker

YouMind

模型

网址

人生 K 线

Fogsight (雾象)

Higgsfield AI

BabelDOC

TTSMaker

YouMind